HtmlArticleExtractor.java example

Explorer

boilerpipe-android-master
- android-boilerpipe-master
  - src
    - main
      - java
        de
        l3s
        boilerpipe
        BoilerpipeDocumentSource.java
        BoilerpipeExtractor.java
        BoilerpipeFilter.java
        BoilerpipeInput.java
        BoilerpipeProcessingException.java
        conditions
        TextBlockCondition.java
        document
        Image.java
        Media.java
        TextBlock.java
        TextDocument.java
        TextDocumentStatistics.java
        Video.java
        VimeoVideo.java
        YoutubeVideo.java
        estimators
        SimpleEstimator.java
        extractors
        ArticleExtractor.java
        ArticleSentencesExtractor.java
        CanolaExtractor.java
        CommonExtractors.java
        DefaultExtractor.java
        ExtractorBase.java
        KeepEverythingExtractor.java
        KeepEverythingWithMinKWordsExtractor.java
        LargestContentExtractor.java
        NumWordsRulesExtractor.java
        filters
        debug
        PrintDebugFilter.java
        english
        DensityRulesClassifier.java
        HeuristicFilterBase.java
        IgnoreBlocksAfterContentFilter.java
        IgnoreBlocksAfterContentFromEndFilter.java
        KeepLargestFulltextBlockFilter.java
        MinFulltextWordsFilter.java
        NumWordsRulesClassifier.java
        TerminatingBlocksFinder.java
        heuristics
        AddPrecedingLabelsFilter.java
        ArticleMetadataFilter.java
        BlockProximityFusion.java
        ContentFusion.java
        DocumentTitleMatchClassifier.java
        ExpandTitleToContentFilter.java
        KeepLargestBlockFilter.java
        LabelFusion.java
        LargeBlockSameTagLevelToContentFilter.java
        ListAtEndFilter.java
        SimpleBlockFusionProcessor.java
        TrailingHeadlineToBoilerplateFilter.java
        simple
        BoilerplateBlockFilter.java
        InvertedFilter.java
        LabelToBoilerplateFilter.java
        LabelToContentFilter.java
        MarkEverythingBoilerplateFilter.java
        MarkEverythingContentFilter.java
        MinClauseWordsFilter.java
        MinWordsFilter.java
        SplitParagraphBlocksFilter.java
        SurroundingToContentFilter.java
        labels
        ConditionalLabelAction.java
        DefaultLabels.java
        LabelAction.java
        sax
        BoilerpipeHTMLContentHandler.java
        BoilerpipeHTMLParser.java
        BoilerpipeSAXInput.java
        CommonTagActions.java
        DefaultTagActionMap.java
        HTMLDocument.java
        HTMLFetcher.java
        HTMLHighlighter.java
        HtmlArticleExtractor.java
        ImageExtractor.java
        InputSourceable.java
        MarkupTagAction.java
        MediaExtractor.java
        TagAction.java
        TagActionMap.java
        util
        UnicodeTokenizer.java
        mf
        javax
        xml
        XMLConstants.java
        datatype
        DatatypeConfigurationException.java
        DatatypeConstants.java
        DatatypeFactory.java
        Duration.java
        FactoryFinder.java
        SecuritySupport.java
        XMLGregorianCalendar.java
        namespace
        NamespaceContext.java
        QName.java
        parsers
        DocumentBuilder.java
        DocumentBuilderFactory.java
        FactoryConfigurationError.java
        FactoryFinder.java
        ParserConfigurationException.java
        SAXParser.java
        SAXParserFactory.java
        SecuritySupport.java
        stream
        EventFilter.java
        FactoryConfigurationError.java
        FactoryFinder.java
        Location.java
        SecuritySupport.java
        StreamFilter.java
        XMLEventFactory.java
        XMLEventReader.java
        XMLEventWriter.java
        XMLInputFactory.java
        XMLOutputFactory.java
        XMLReporter.java
        XMLResolver.java
        XMLStreamConstants.java
        XMLStreamException.java
        XMLStreamReader.java
        XMLStreamWriter.java
        events
        Attribute.java
        Characters.java
        Comment.java
        DTD.java
        EndDocument.java
        EndElement.java
        EntityDeclaration.java
        EntityReference.java
        Namespace.java
        NotationDeclaration.java
        ProcessingInstruction.java
        StartDocument.java
        StartElement.java
        XMLEvent.java
        util
        EventReaderDelegate.java
        StreamReaderDelegate.java
        XMLEventAllocator.java
        XMLEventConsumer.java
        transform
        ErrorListener.java
        FactoryFinder.java
        OutputKeys.java
        Result.java
        SecuritySupport.java
        Source.java
        SourceLocator.java
        Templates.java
        Transformer.java
        TransformerConfigurationException.java
        TransformerException.java
        TransformerFactory.java
        TransformerFactoryConfigurationError.java
        URIResolver.java
        dom
        DOMLocator.java
        DOMResult.java
        DOMSource.java
        sax
        SAXResult.java
        SAXSource.java
        SAXTransformerFactory.java
        TemplatesHandler.java
        TransformerHandler.java
        stax
        StAXResult.java
        StAXSource.java
        stream
        StreamResult.java
        StreamSource.java
        validation
        Schema.java
        SchemaFactory.java
        SchemaFactoryFinder.java
        SchemaFactoryLoader.java
        SecuritySupport.java
        TypeInfoProvider.java
        Validator.java
        ValidatorHandler.java
        xpath
        SecuritySupport.java
        XPath.java
        XPathConstants.java
        XPathException.java
        XPathExpression.java
        XPathExpressionException.java
        XPathFactory.java
        XPathFactoryConfigurationException.java
        XPathFactoryFinder.java
        XPathFunction.java
        XPathFunctionException.java
        XPathFunctionResolver.java
        XPathVariableResolver.java
        org
        apache
        html
        dom
        HTMLAnchorElementImpl.java
        HTMLAppletElementImpl.java
        HTMLAreaElementImpl.java
        HTMLBRElementImpl.java
        HTMLBaseElementImpl.java
        HTMLBaseFontElementImpl.java
        HTMLBodyElementImpl.java
        HTMLBuilder.java
        HTMLButtonElementImpl.java
        HTMLCollectionImpl.java
        HTMLDListElementImpl.java
        HTMLDOMImplementationImpl.java
        HTMLDirectoryElementImpl.java
        HTMLDivElementImpl.java
        HTMLDocumentImpl.java
        HTMLElementImpl.java
        HTMLFieldSetElementImpl.java
        HTMLFontElementImpl.java
        HTMLFormControl.java
        HTMLFormElementImpl.java
        HTMLFrameElementImpl.java
        HTMLFrameSetElementImpl.java
        HTMLHRElementImpl.java
        HTMLHeadElementImpl.java
        HTMLHeadingElementImpl.java
        HTMLHtmlElementImpl.java
        HTMLIFrameElementImpl.java
        HTMLImageElementImpl.java
        HTMLInputElementImpl.java
        HTMLIsIndexElementImpl.java
        HTMLLIElementImpl.java
        HTMLLabelElementImpl.java
        HTMLLegendElementImpl.java
        HTMLLinkElementImpl.java
        HTMLMapElementImpl.java
        HTMLMenuElementImpl.java
        HTMLMetaElementImpl.java
        HTMLModElementImpl.java
        HTMLOListElementImpl.java
        HTMLObjectElementImpl.java
        HTMLOptGroupElementImpl.java
        HTMLOptionElementImpl.java
        HTMLParagraphElementImpl.java
        HTMLParamElementImpl.java
        HTMLPreElementImpl.java
        HTMLQuoteElementImpl.java
        HTMLScriptElementImpl.java
        HTMLSelectElementImpl.java
        HTMLStyleElementImpl.java
        HTMLTableCaptionElementImpl.java
        HTMLTableCellElementImpl.java
        HTMLTableColElementImpl.java
        HTMLTableElementImpl.java
        HTMLTableRowElementImpl.java
        HTMLTableSectionElementImpl.java
        HTMLTextAreaElementImpl.java
        HTMLTitleElementImpl.java
        HTMLUListElementImpl.java
        NameNodeListImpl.java
        ObjectFactory.java
        SecuritySupport.java
        wml
        WMLAElement.java
        WMLAccessElement.java
        WMLAnchorElement.java
        WMLBElement.java
        WMLBigElement.java
        WMLBrElement.java
        WMLCardElement.java
        WMLDOMImplementation.java
        WMLDoElement.java
        WMLDocument.java
        WMLElement.java
        WMLEmElement.java
        WMLFieldsetElement.java
        WMLGoElement.java
        WMLHeadElement.java
        WMLIElement.java
        WMLImgElement.java
        WMLInputElement.java
        WMLMetaElement.java
        WMLNoopElement.java
        WMLOneventElement.java
        WMLOptgroupElement.java
        WMLOptionElement.java
        WMLPElement.java
        WMLPostfieldElement.java
        WMLPrevElement.java
        WMLRefreshElement.java
        WMLSelectElement.java
        WMLSetvarElement.java
        WMLSmallElement.java
        WMLStrongElement.java
        WMLTableElement.java
        WMLTdElement.java
        WMLTemplateElement.java
        WMLTimerElement.java
        WMLTrElement.java
        WMLUElement.java
        WMLWmlElement.java
        dom
        WMLAElementImpl.java
        WMLAccessElementImpl.java
        WMLAnchorElementImpl.java
        WMLBElementImpl.java
        WMLBigElementImpl.java
        WMLBrElementImpl.java
        WMLCardElementImpl.java
        WMLDOMImplementationImpl.java
        WMLDoElementImpl.java
        WMLDocumentImpl.java
        WMLElementImpl.java
        WMLEmElementImpl.java
        WMLFieldsetElementImpl.java
        WMLGoElementImpl.java
        WMLHeadElementImpl.java
        WMLIElementImpl.java
        WMLImgElementImpl.java
        WMLInputElementImpl.java
        WMLMetaElementImpl.java
        WMLNoopElementImpl.java
        WMLOneventElementImpl.java
        WMLOptgroupElementImpl.java
        WMLOptionElementImpl.java
        WMLPElementImpl.java
        WMLPostfieldElementImpl.java
        WMLPrevElementImpl.java
        WMLRefreshElementImpl.java
        WMLSelectElementImpl.java
        WMLSetvarElementImpl.java
        WMLSmallElementImpl.java
        WMLStrongElementImpl.java
        WMLTableElementImpl.java
        WMLTdElementImpl.java
        WMLTemplateElementImpl.java
        WMLTimerElementImpl.java
        WMLTrElementImpl.java
        WMLUElementImpl.java
        WMLWmlElementImpl.java
        xerces
        dom
        ASDOMImplementationImpl.java
        ASModelImpl.java
        AttrImpl.java
        AttrNSImpl.java
        AttributeMap.java
        CDATASectionImpl.java
        CharacterDataImpl.java
        ChildNode.java
        CommentImpl.java
        CoreDOMImplementationImpl.java
        CoreDocumentImpl.java
        DOMConfigurationImpl.java
        DOMErrorImpl.java
        DOMImplementationImpl.java
        DOMImplementationListImpl.java
        DOMImplementationSourceImpl.java
        DOMInputImpl.java
        DOMLocatorImpl.java
        DOMMessageFormatter.java
        DOMNormalizer.java
        DOMOutputImpl.java
        DOMStringListImpl.java
        DOMXSImplementationSourceImpl.java
        DeepNodeListImpl.java
        DeferredAttrImpl.java
        DeferredAttrNSImpl.java
        DeferredCDATASectionImpl.java
        DeferredCommentImpl.java
        DeferredDOMImplementationImpl.java
        DeferredDocumentImpl.java
        DeferredDocumentTypeImpl.java
        DeferredElementDefinitionImpl.java
        DeferredElementImpl.java
        DeferredElementNSImpl.java
        DeferredEntityImpl.java
        DeferredEntityReferenceImpl.java
        DeferredNode.java
        DeferredNotationImpl.java
        DeferredProcessingInstructionImpl.java
        DeferredTextImpl.java
        DocumentFragmentImpl.java
        DocumentImpl.java
        DocumentTypeImpl.java
        ElementDefinitionImpl.java
        ElementImpl.java
        ElementNSImpl.java
        EntityImpl.java
        EntityReferenceImpl.java
        LCount.java
        NamedNodeMapImpl.java
        NodeImpl.java
        NodeIteratorImpl.java
        NodeListCache.java
        NotationImpl.java
        ObjectFactory.java
        PSVIAttrNSImpl.java
        PSVIDOMImplementationImpl.java
        PSVIDocumentImpl.java
        PSVIElementNSImpl.java
        ParentNode.java
        ProcessingInstructionImpl.java
        RangeExceptionImpl.java
        RangeImpl.java
        SecuritySupport.java
        TextImpl.java
        TreeWalkerImpl.java
        events
        EventImpl.java
        MouseEventImpl.java
        MutationEventImpl.java
        UIEventImpl.java
        dom3
        as
        ASAttributeDeclaration.java
        ASContentModel.java
        ASDataType.java
        ASElementDeclaration.java
        ASEntityDeclaration.java
        ASModel.java
        ASNamedObjectMap.java
        ASNotationDeclaration.java
        ASObject.java
        ASObjectList.java
        CharacterDataEditAS.java
        DOMASBuilder.java
        DOMASException.java
        DOMASWriter.java
        DOMImplementationAS.java
        DocumentAS.java
        DocumentEditAS.java
        ElementEditAS.java
        NodeEditAS.java
        impl
        Constants.java
        ExternalSubsetResolver.java
        RevalidationHandler.java
        Version.java
        XML11DTDScannerImpl.java
        XML11DocumentScannerImpl.java
        XML11EntityScanner.java
        XML11NSDocumentScannerImpl.java
        XML11NamespaceBinder.java
        XMLDTDScannerImpl.java
        XMLDocumentFragmentScannerImpl.java
        XMLDocumentScannerImpl.java
        XMLEntityDescription.java
        XMLEntityHandler.java
        XMLEntityManager.java
        XMLEntityScanner.java
        XMLErrorReporter.java
        XMLNSDocumentScannerImpl.java
        XMLNamespaceBinder.java
        XMLScanner.java
        XMLVersionDetector.java
        dtd
        BalancedDTDGrammar.java
        DTDGrammar.java
        DTDGrammarBucket.java
        XML11DTDProcessor.java
        XML11DTDValidator.java
        XML11NSDTDValidator.java
        XMLAttributeDecl.java
        XMLContentSpec.java
        XMLDTDDescription.java
        XMLDTDLoader.java
        XMLDTDProcessor.java
        XMLDTDValidator.java
        XMLDTDValidatorFilter.java
        XMLElementDecl.java
        XMLEntityDecl.java
        XMLNSDTDValidator.java
        XMLNotationDecl.java
        XMLSimpleType.java
        models
        CMAny.java
        CMBinOp.java
        CMLeaf.java
        CMNode.java
        CMStateSet.java
        CMUniOp.java
        ContentModelValidator.java
        DFAContentModel.java
        MixedContentModel.java
        SimpleContentModel.java
        dv
        DTDDVFactory.java
        DVFactoryException.java
        DatatypeException.java
        DatatypeValidator.java
        InvalidDatatypeFacetException.java
        InvalidDatatypeValueException.java
        ObjectFactory.java
        SchemaDVFactory.java
        SecuritySupport.java
        ValidatedInfo.java
        ValidationContext.java
        XSFacets.java
        XSSimpleType.java
        dtd
        DTDDVFactoryImpl.java
        ENTITYDatatypeValidator.java
        IDDatatypeValidator.java
        IDREFDatatypeValidator.java
        ListDatatypeValidator.java
        NMTOKENDatatypeValidator.java
        NOTATIONDatatypeValidator.java
        StringDatatypeValidator.java
        XML11DTDDVFactoryImpl.java
        XML11IDDatatypeValidator.java
        XML11IDREFDatatypeValidator.java
        XML11NMTOKENDatatypeValidator.java
        util
        Base64.java
        ByteListImpl.java
        HexBin.java
        xs
        AbstractDateTimeDV.java
        AnyAtomicDV.java
        AnySimpleDV.java
        AnyURIDV.java
        Base64BinaryDV.java
        BaseDVFactory.java
        BaseSchemaDVFactory.java
        BooleanDV.java
        DateDV.java
        DateTimeDV.java
        DayDV.java
        DayTimeDurationDV.java
        DecimalDV.java
        DoubleDV.java
        DurationDV.java
        EntityDV.java
        ExtendedSchemaDVFactoryImpl.java
        FloatDV.java
        FullDVFactory.java
        HexBinaryDV.java
        IDDV.java
        IDREFDV.java
        IntegerDV.java
        ListDV.java
        MonthDV.java
        MonthDayDV.java
        PrecisionDecimalDV.java
        QNameDV.java
        SchemaDVFactoryImpl.java
        SchemaDateTimeException.java
        StringDV.java
        TimeDV.java
        TypeValidator.java
        UnionDV.java
        XSSimpleTypeDecl.java
        XSSimpleTypeDelegate.java
        YearDV.java
        YearMonthDV.java
        YearMonthDurationDV.java
        io
        ASCIIReader.java
        Latin1Reader.java
        MalformedByteSequenceException.java
        UCSReader.java
        UTF16Reader.java
        UTF8Reader.java
        msg
        XMLMessageFormatter.java
        validation
        ConfigurableValidationState.java
        EntityState.java
        ValidationManager.java
        ValidationState.java
        xpath
        XPath.java
        XPathException.java
        regex
        BMPattern.java
        CaseInsensitiveMap.java
        Match.java
        Op.java
        ParseException.java
        ParserForXMLSchema.java
        REUtil.java
        RangeToken.java
        RegexParser.java
        RegularExpression.java
        Token.java
        xs
        AttributePSVImpl.java
        ElementPSVImpl.java
        FilePathToURI.java
        PSVIErrorList.java
        SchemaGrammar.java
        SchemaNamespaceSupport.java
        SchemaSymbols.java
        SubstitutionGroupHandler.java
        XMLSchemaException.java
        XMLSchemaLoader.java
        XMLSchemaValidator.java
        XSAnnotationImpl.java
        XSAttributeDecl.java
        XSAttributeGroupDecl.java
        XSAttributeUseImpl.java
        XSComplexTypeDecl.java
        XSConstraints.java
        XSDDescription.java
        XSDeclarationPool.java
        XSElementDecl.java
        XSElementDeclHelper.java
        XSGrammarBucket.java
        XSGroupDecl.java
        XSImplementationImpl.java
        XSLoaderImpl.java
        XSMessageFormatter.java
        XSModelGroupImpl.java
        XSModelImpl.java
        XSNotationDecl.java
        XSParticleDecl.java
        XSWildcardDecl.java
        identity
        Field.java
        FieldActivator.java
        IdentityConstraint.java
        KeyRef.java
        Selector.java
        UniqueOrKey.java
        ValueStore.java
        XPathMatcher.java
        models
        CMBuilder.java
        CMNodeFactory.java
        XSAllCM.java
        XSCMBinOp.java
        XSCMLeaf.java
        XSCMRepeatingLeaf.java
        XSCMUniOp.java
        XSCMValidator.java
        XSDFACM.java
        XSEmptyCM.java
        opti
        AttrImpl.java
        DefaultDocument.java
        DefaultElement.java
        DefaultNode.java
        DefaultText.java
        DefaultXMLDocumentHandler.java
        ElementImpl.java
        NamedNodeMapImpl.java
        NodeImpl.java
        SchemaDOM.java
        SchemaDOMImplementation.java
        SchemaDOMParser.java
        SchemaParsingConfig.java
        TextImpl.java
        traversers
        SchemaContentHandler.java
        StAXSchemaParser.java
        XSAnnotationInfo.java
        XSAttributeChecker.java
        XSDAbstractIDConstraintTraverser.java
        XSDAbstractParticleTraverser.java
        XSDAbstractTraverser.java
        XSDAttributeGroupTraverser.java
        XSDAttributeTraverser.java
        XSDComplexTypeTraverser.java
        XSDElementTraverser.java
        XSDGroupTraverser.java
        XSDHandler.java
        XSDKeyrefTraverser.java
        XSDNotationTraverser.java
        XSDSimpleTypeTraverser.java
        XSDUniqueOrKeyTraverser.java
        XSDWildcardTraverser.java
        XSDocumentInfo.java
        util
        LSInputListImpl.java
        ObjectListImpl.java
        ShortListImpl.java
        SimpleLocator.java
        StringListImpl.java
        XInt.java
        XIntPool.java
        XSGrammarPool.java
        XSInputSource.java
        XSNamedMap4Types.java
        XSNamedMapImpl.java
        XSObjectListImpl.java
        jaxp
        DefaultValidationErrorHandler.java
        DocumentBuilderFactoryImpl.java
        DocumentBuilderImpl.java
        JAXPConstants.java
        JAXPValidatorComponent.java
        SAXParserFactoryImpl.java
        SAXParserImpl.java
        SchemaValidatorConfiguration.java
        TeeXMLDocumentFilterImpl.java
        UnparsedEntityHandler.java
        datatype
        DatatypeFactoryImpl.java
        DurationImpl.java
        SerializedDuration.java
        SerializedXMLGregorianCalendar.java
        XMLGregorianCalendarImpl.java
        validation
        AbstractXMLSchema.java
        DOMDocumentHandler.java
        DOMResultAugmentor.java
        DOMResultBuilder.java
        DOMValidatorHelper.java
        DraconianErrorHandler.java
        EmptyXMLSchema.java
        JAXPValidationMessageFormatter.java
        ReadOnlyGrammarPool.java
        SimpleXMLSchema.java
        SoftReferenceGrammarPool.java
        StAXDocumentHandler.java
        StAXEventResultBuilder.java
        StAXStreamResultBuilder.java
        StAXValidatorHelper.java
        StreamValidatorHelper.java
        Util.java
        ValidatorHandlerImpl.java
        ValidatorHelper.java
        ValidatorImpl.java
        WeakReferenceXMLSchema.java
        XMLSchema.java
        XMLSchemaFactory.java
        XMLSchemaValidatorComponentManager.java
        XSGrammarPoolContainer.java
        parsers
        AbstractDOMParser.java
        AbstractSAXParser.java
        AbstractXMLDocumentParser.java
        BasicParserConfiguration.java
        CachingParserPool.java
        DOMASBuilderImpl.java
        DOMParser.java
        DOMParserImpl.java
        DTDConfiguration.java
        DTDParser.java
        IntegratedParserConfiguration.java
        NonValidatingConfiguration.java
        ObjectFactory.java
        SAXParser.java
        SecurityConfiguration.java
        SecuritySupport.java
        SoftReferenceSymbolTableConfiguration.java
        StandardParserConfiguration.java
        XIncludeAwareParserConfiguration.java
        XIncludeParserConfiguration.java
        XML11Configurable.java
        XML11Configuration.java
        XML11DTDConfiguration.java
        XML11NonValidatingConfiguration.java
        XMLDocumentParser.java
        XMLGrammarCachingConfiguration.java
        XMLGrammarParser.java
        XMLGrammarPreparser.java
        XMLParser.java
        XPointerParserConfiguration.java
        stax
        DefaultNamespaceContext.java
        EmptyLocation.java
        ImmutableLocation.java
        XMLEventFactoryImpl.java
        events
        AttributeImpl.java
        CharactersImpl.java
        CommentImpl.java
        DTDImpl.java
        ElementImpl.java
        EndDocumentImpl.java
        EndElementImpl.java
        EntityDeclarationImpl.java
        EntityReferenceImpl.java
        NamespaceImpl.java
        NotationDeclarationImpl.java
        ProcessingInstructionImpl.java
        StartDocumentImpl.java
        StartElementImpl.java
        XMLEventImpl.java
        util
        AttributesProxy.java
        AugmentationsImpl.java
        DOMEntityResolverWrapper.java
        DOMErrorHandlerWrapper.java
        DOMInputSource.java
        DOMUtil.java
        DatatypeMessageFormatter.java
        DefaultErrorHandler.java
        EncodingMap.java
        EntityResolver2Wrapper.java
        EntityResolverWrapper.java
        ErrorHandlerProxy.java
        ErrorHandlerWrapper.java
        HTTPInputSource.java
        IntStack.java
        JAXPNamespaceContextWrapper.java
        LocatorProxy.java
        MessageFormatter.java
        NamespaceSupport.java
        ParserConfigurationSettings.java
        SAXInputSource.java
        SAXLocatorWrapper.java
        SAXMessageFormatter.java
        SecurityManager.java
        ShadowedSymbolTable.java
        SoftReferenceSymbolTable.java
        StAXInputSource.java
        StAXLocationWrapper.java
        SymbolHash.java
        SymbolTable.java
        SynchronizedSymbolTable.java
        URI.java
        XML11Char.java
        XMLAttributesImpl.java
        XMLCatalogResolver.java
        XMLChar.java
        XMLEntityDescriptionImpl.java
        XMLErrorCode.java
        XMLGrammarPoolImpl.java
        XMLLocatorWrapper.java
        XMLResourceIdentifierImpl.java
        XMLStringBuffer.java
        XMLSymbols.java
        xinclude
        MultipleScopeNamespaceSupport.java
        ObjectFactory.java
        SecuritySupport.java
        XInclude11TextReader.java
        XIncludeHandler.java
        XIncludeMessageFormatter.java
        XIncludeNamespaceSupport.java
        XIncludeTextReader.java
        xni
        Augmentations.java
        NamespaceContext.java
        QName.java
        XMLAttributes.java
        XMLDTDContentModelHandler.java
        XMLDTDHandler.java
        XMLDocumentFragmentHandler.java
        XMLDocumentHandler.java
        XMLLocator.java
        XMLResourceIdentifier.java
        XMLString.java
        XNIException.java
        grammars
        Grammar.java
        XMLDTDDescription.java
        XMLGrammarDescription.java
        XMLGrammarLoader.java
        XMLGrammarPool.java
        XMLSchemaDescription.java
        XSGrammar.java
        parser
        XMLComponent.java
        XMLComponentManager.java
        XMLConfigurationException.java
        XMLDTDContentModelFilter.java
        XMLDTDContentModelSource.java
        XMLDTDFilter.java
        XMLDTDScanner.java
        XMLDTDSource.java
        XMLDocumentFilter.java
        XMLDocumentScanner.java
        XMLDocumentSource.java
        XMLEntityResolver.java
        XMLErrorHandler.java
        XMLInputSource.java
        XMLParseException.java
        XMLParserConfiguration.java
        XMLPullParserConfiguration.java
        xpointer
        ElementSchemePointer.java
        ShortHandPointer.java
        XPointerErrorHandler.java
        XPointerHandler.java
        XPointerMessageFormatter.java
        XPointerPart.java
        XPointerProcessor.java
        xs
        AttributePSVI.java
        ElementPSVI.java
        ItemPSVI.java
        LSInputList.java
        PSVIProvider.java
        ShortList.java
        StringList.java
        XSAnnotation.java
        XSAttributeDeclaration.java
        XSAttributeGroupDefinition.java
        XSAttributeUse.java
        XSComplexTypeDefinition.java
        XSConstants.java
        XSElementDeclaration.java
        XSException.java
        XSFacet.java
        XSIDCDefinition.java
        XSImplementation.java
        XSLoader.java
        XSModel.java
        XSModelGroup.java
        XSModelGroupDefinition.java
        XSMultiValueFacet.java
        XSNamedMap.java
        XSNamespaceItem.java
        XSNamespaceItemList.java
        XSNotationDeclaration.java
        XSObject.java
        XSObjectList.java
        XSParticle.java
        XSSimpleTypeDefinition.java
        XSTerm.java
        XSTypeDefinition.java
        XSValue.java
        XSWildcard.java
        datatypes
        ByteList.java
        ObjectList.java
        XSDateTime.java
        XSDecimal.java
        XSDouble.java
        XSFloat.java
        XSQName.java
        xml
        resolver
        Catalog.java
        CatalogEntry.java
        CatalogException.java
        CatalogManager.java
        Resolver.java
        Version.java
        apps
        XParseError.java
        resolver.java
        xparse.java
        xread.java
        helpers
        BootstrapResolver.java
        Debug.java
        FileURL.java
        Namespaces.java
        PublicId.java
        readers
        CatalogReader.java
        DOMCatalogParser.java
        DOMCatalogReader.java
        ExtendedXMLCatalogReader.java
        OASISXMLCatalogReader.java
        SAXCatalogParser.java
        SAXCatalogReader.java
        SAXParserHandler.java
        TR9401CatalogReader.java
        TextCatalogReader.java
        XCatalogReader.java
        tools
        CatalogResolver.java
        ResolvingParser.java
        ResolvingXMLFilter.java
        ResolvingXMLReader.java
        serialize
        BaseMarkupSerializer.java
        DOMSerializer.java
        DOMSerializerImpl.java
        ElementState.java
        EncodingInfo.java
        Encodings.java
        HTMLSerializer.java
        HTMLdtd.java
        IndentPrinter.java
        LineSeparator.java
        Method.java
        ObjectFactory.java
        OutputFormat.java
        Printer.java
        SecuritySupport.java
        Serializer.java
        SerializerFactory.java
        SerializerFactoryImpl.java
        TextSerializer.java
        XHTMLSerializer.java
        XML11Serializer.java
        XMLSerializer.java
        w3c
        dom
        Attr.java
        CDATASection.java
        CharacterData.java
        Comment.java
        DOMConfiguration.java
        DOMError.java
        DOMErrorHandler.java
        DOMException.java
        DOMImplementation.java
        DOMImplementationList.java
        DOMImplementationSource.java
        DOMLocator.java
        DOMStringList.java
        Document.java
        DocumentFragment.java
        DocumentType.java
        Element.java
        ElementTraversal.java
        Entity.java
        EntityReference.java
        NameList.java
        NamedNodeMap.java
        Node.java
        NodeList.java
        Notation.java
        ProcessingInstruction.java
        Text.java
        TypeInfo.java
        UserDataHandler.java
        bootstrap
        DOMImplementationRegistry.java
        css
        CSS2Properties.java
        CSSCharsetRule.java
        CSSFontFaceRule.java
        CSSImportRule.java
        CSSMediaRule.java
        CSSPageRule.java
        CSSPrimitiveValue.java
        CSSRule.java
        CSSRuleList.java
        CSSStyleDeclaration.java
        CSSStyleRule.java
        CSSStyleSheet.java
        CSSUnknownRule.java
        CSSValue.java
        CSSValueList.java
        Counter.java
        DOMImplementationCSS.java
        DocumentCSS.java
        ElementCSSInlineStyle.java
        RGBColor.java
        Rect.java
        ViewCSS.java
        events
        DocumentEvent.java
        Event.java
        EventException.java
        EventListener.java
        EventTarget.java
        MouseEvent.java
        MutationEvent.java
        UIEvent.java
        html
        HTMLAnchorElement.java
        HTMLAppletElement.java
        HTMLAreaElement.java
        HTMLBRElement.java
        HTMLBaseElement.java
        HTMLBaseFontElement.java
        HTMLBodyElement.java
        HTMLButtonElement.java
        HTMLCollection.java
        HTMLDListElement.java
        HTMLDOMImplementation.java
        HTMLDirectoryElement.java
        HTMLDivElement.java
        HTMLDocument.java
        HTMLElement.java
        HTMLFieldSetElement.java
        HTMLFontElement.java
        HTMLFormElement.java
        HTMLFrameElement.java
        HTMLFrameSetElement.java
        HTMLHRElement.java
        HTMLHeadElement.java
        HTMLHeadingElement.java
        HTMLHtmlElement.java
        HTMLIFrameElement.java
        HTMLImageElement.java
        HTMLInputElement.java
        HTMLIsIndexElement.java
        HTMLLIElement.java
        HTMLLabelElement.java
        HTMLLegendElement.java
        HTMLLinkElement.java
        HTMLMapElement.java
        HTMLMenuElement.java
        HTMLMetaElement.java
        HTMLModElement.java
        HTMLOListElement.java
        HTMLObjectElement.java
        HTMLOptGroupElement.java
        HTMLOptionElement.java
        HTMLParagraphElement.java
        HTMLParamElement.java
        HTMLPreElement.java
        HTMLQuoteElement.java
        HTMLScriptElement.java
        HTMLSelectElement.java
        HTMLStyleElement.java
        HTMLTableCaptionElement.java
        HTMLTableCellElement.java
        HTMLTableColElement.java
        HTMLTableElement.java
        HTMLTableRowElement.java
        HTMLTableSectionElement.java
        HTMLTextAreaElement.java
        HTMLTitleElement.java
        HTMLUListElement.java
        ls
        DOMImplementationLS.java
        LSException.java
        LSInput.java
        LSLoadEvent.java
        LSOutput.java
        LSParser.java
        LSParserFilter.java
        LSProgressEvent.java
        LSResourceResolver.java
        LSSerializer.java
        LSSerializerFilter.java
        ranges
        DocumentRange.java
        Range.java
        RangeException.java
        smil
        ElementTimeControl.java
        TimeEvent.java
        stylesheets
        DocumentStyle.java
        LinkStyle.java
        MediaList.java
        StyleSheet.java
        StyleSheetList.java
        svg
        EventListenerInitializer.java
        GetSVGDocument.java
        SVGAElement.java
        SVGAltGlyphDefElement.java
        SVGAltGlyphElement.java
        SVGAltGlyphItemElement.java
        SVGAngle.java
        SVGAnimateColorElement.java
        SVGAnimateElement.java
        SVGAnimateMotionElement.java
        SVGAnimateTransformElement.java
        SVGAnimatedAngle.java
        SVGAnimatedBoolean.java
        SVGAnimatedEnumeration.java
        SVGAnimatedInteger.java
        SVGAnimatedLength.java
        SVGAnimatedLengthList.java
        SVGAnimatedNumber.java
        SVGAnimatedNumberList.java
        SVGAnimatedPathData.java
        SVGAnimatedPoints.java
        SVGAnimatedPreserveAspectRatio.java
        SVGAnimatedRect.java
        SVGAnimatedString.java
        SVGAnimatedTransformList.java
        SVGAnimationElement.java
        SVGCSSRule.java
        SVGCircleElement.java
        SVGClipPathElement.java
        SVGColor.java
        SVGColorProfileElement.java
        SVGColorProfileRule.java
        SVGComponentTransferFunctionElement.java
        SVGCursorElement.java
        SVGDefinitionSrcElement.java
        SVGDefsElement.java
        SVGDescElement.java
        SVGDocument.java
        SVGElement.java
        SVGElementInstance.java
        SVGElementInstanceList.java
        SVGEllipseElement.java
        SVGEvent.java
        SVGException.java
        SVGExternalResourcesRequired.java
        SVGFEBlendElement.java
        SVGFEColorMatrixElement.java
        SVGFEComponentTransferElement.java
        SVGFECompositeElement.java
        SVGFEConvolveMatrixElement.java
        SVGFEDiffuseLightingElement.java
        SVGFEDisplacementMapElement.java
        SVGFEDistantLightElement.java
        SVGFEFloodElement.java
        SVGFEFuncAElement.java
        SVGFEFuncBElement.java
        SVGFEFuncGElement.java
        SVGFEFuncRElement.java
        SVGFEGaussianBlurElement.java
        SVGFEImageElement.java
        SVGFEMergeElement.java
        SVGFEMergeNodeElement.java
        SVGFEMorphologyElement.java
        SVGFEOffsetElement.java
        SVGFEPointLightElement.java
        SVGFESpecularLightingElement.java
        SVGFESpotLightElement.java
        SVGFETileElement.java
        SVGFETurbulenceElement.java
        SVGFilterElement.java
        SVGFilterPrimitiveStandardAttributes.java
        SVGFitToViewBox.java
        SVGFontElement.java
        SVGFontFaceElement.java
        SVGFontFaceFormatElement.java
        SVGFontFaceNameElement.java
        SVGFontFaceSrcElement.java
        SVGFontFaceUriElement.java
        SVGForeignObjectElement.java
        SVGGElement.java
        SVGGlyphElement.java
        SVGGlyphRefElement.java
        SVGGradientElement.java
        SVGHKernElement.java
        SVGICCColor.java
        SVGImageElement.java
        SVGLangSpace.java
        SVGLength.java
        SVGLengthList.java
        SVGLineElement.java
        SVGLinearGradientElement.java
        SVGLocatable.java
        SVGMPathElement.java
        SVGMarkerElement.java
        SVGMaskElement.java
        SVGMatrix.java
        SVGMetadataElement.java
        SVGMissingGlyphElement.java
        SVGNumber.java
        SVGNumberList.java
        SVGPaint.java
        SVGPathElement.java
        SVGPathSeg.java
        SVGPathSegArcAbs.java
        SVGPathSegArcRel.java
        SVGPathSegClosePath.java
        SVGPathSegCurvetoCubicAbs.java
        SVGPathSegCurvetoCubicRel.java
        SVGPathSegCurvetoCubicSmoothAbs.java
        SVGPathSegCurvetoCubicSmoothRel.java
        SVGPathSegCurvetoQuadraticAbs.java
        SVGPathSegCurvetoQuadraticRel.java
        SVGPathSegCurvetoQuadraticSmoothAbs.java
        SVGPathSegCurvetoQuadraticSmoothRel.java
        SVGPathSegLinetoAbs.java
        SVGPathSegLinetoHorizontalAbs.java
        SVGPathSegLinetoHorizontalRel.java
        SVGPathSegLinetoRel.java
        SVGPathSegLinetoVerticalAbs.java
        SVGPathSegLinetoVerticalRel.java
        SVGPathSegList.java
        SVGPathSegMovetoAbs.java
        SVGPathSegMovetoRel.java
        SVGPatternElement.java
        SVGPoint.java
        SVGPointList.java
        SVGPolygonElement.java
        SVGPolylineElement.java
        SVGPreserveAspectRatio.java
        SVGRadialGradientElement.java
        SVGRect.java
        SVGRectElement.java
        SVGRenderingIntent.java
        SVGSVGElement.java
        SVGScriptElement.java
        SVGSetElement.java
        SVGStopElement.java
        SVGStringList.java
        SVGStylable.java
        SVGStyleElement.java
        SVGSwitchElement.java
        SVGSymbolElement.java
        SVGTRefElement.java
        SVGTSpanElement.java
        SVGTests.java
        SVGTextContentElement.java
        SVGTextElement.java
        SVGTextPathElement.java
        SVGTextPositioningElement.java
        SVGTitleElement.java
        SVGTransform.java
        SVGTransformList.java
        SVGTransformable.java
        SVGURIReference.java
        SVGUnitTypes.java
        SVGUseElement.java
        SVGVKernElement.java
        SVGViewElement.java
        SVGViewSpec.java
        SVGZoomAndPan.java
        SVGZoomEvent.java
        traversal
        DocumentTraversal.java
        NodeFilter.java
        NodeIterator.java
        TreeWalker.java
        views
        AbstractView.java
        DocumentView.java
        xpath
        XPathEvaluator.java
        XPathException.java
        XPathExpression.java
        XPathNSResolver.java
        XPathNamespace.java
        XPathResult.java
        org
        cyberneko
        html
        HTMLAugmentations.java
        HTMLComponent.java
        HTMLConfiguration.java
        HTMLElements.java
        HTMLEntities.java
        HTMLErrorReporter.java
        HTMLEventInfo.java
        HTMLScanner.java
        HTMLTagBalancer.java
        HTMLTagBalancingListener.java
        LostText.java
        ObjectFactory.java
        SecuritySupport.java
        SecuritySupport12.java
        filters
        DefaultFilter.java
        ElementRemover.java
        Identity.java
        NamespaceBinder.java
        Purifier.java
        Writer.java
        parsers
        DOMFragmentParser.java
        DOMParser.java
        SAXParser.java
        xercesbridge
        XercesBridge.java
        XercesBridge_2_2.java
        XercesBridge_2_3.java

/*
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 * 
 *       http://www.apache.org/licenses/LICENSE-2.0
 *       
 * Unless required by applicable law or agreed to in writing,
 * software distributed under the License is distributed on an
 * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 * KIND, either express or implied.  See the License for the
 * specific language governing permissions and limitations
 * under the License.
 */

package de.l3s.boilerpipe.sax;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.net.URL;
import java.util.Arrays;
import java.util.HashSet;
import java.util.List;
import java.util.Map;
import java.util.Set;


import net.htmlparser.jericho.Attributes;
import net.htmlparser.jericho.Element;
import net.htmlparser.jericho.HTMLElementName;
import net.htmlparser.jericho.OutputDocument;
import net.htmlparser.jericho.Segment;
import net.htmlparser.jericho.Source;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;

import de.l3s.boilerpipe.BoilerpipeExtractor;
import de.l3s.boilerpipe.BoilerpipeProcessingException;
import de.l3s.boilerpipe.document.TextDocument;


/**
 * an Extractor for extracting an article from an document with its basic HTML structure.
 * 
 * @author manuel.codiga@gmail.com
 */
public class HtmlArticleExtractor {
    public static final HtmlArticleExtractor INSTANCE = new HtmlArticleExtractor();

    private static final Set<String> NOT_ALLOWED_HTML_TAGS = new HashSet<String>(Arrays.asList(
                                                                                                      HTMLElementName.HEAD,
                                                                                                      HTMLElementName.HTML,
                                                                                                      HTMLElementName.SCRIPT,
                                                                                                      HTMLElementName.STYLE,
                                                                                                      HTMLElementName.FORM,
                                                                                                      HTMLElementName.BODY,
                                                                                                      HTMLElementName.DIV,
                                                                                                      HTMLElementName.SPAN)
    );

    private HtmlArticleExtractor() {}

    /**
     * Returns the singleton instance
     *
     * @return
     */
    public static HtmlArticleExtractor getInstance() {
        return INSTANCE;
    }

    /**
     * returns the article from an url with its basic html structure.
     *
     */
    public String process(final BoilerpipeExtractor extractor, final URL url)
            throws IOException, BoilerpipeProcessingException, SAXException, URISyntaxException {
        final HTMLDocument htmlDoc = HTMLFetcher.fetch(url);
        return process(htmlDoc, url.toURI(), extractor);
    }


    /**
     * returns the article from an document with its basic html structure.
     *
     * @param HTMLDocument
     * @param URI the uri from the document for resolving the relative anchors in the document to absolute anchors
     * @return String
     */
    public String process(HTMLDocument htmlDoc, URI docUri, final BoilerpipeExtractor extractor) {

        final HTMLHighlighter hh = HTMLHighlighter.newExtractingInstance();
        hh.setOutputHighlightOnly(true);

        TextDocument doc;

        String text = "";
        try {
            doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
            extractor.process(doc);
            final InputSource is = htmlDoc.toInputSource();
            text = hh.process(doc, is);
        } catch (Exception ex) {
            return null;
        }


        return removeNotAllowedTags(text, docUri);
    }

    /**
     * Serduszko dla Bartka od Kasi <3
     * @param htmlFragment
     * @param docUri
     * @return
     */
    private String removeNotAllowedTags(String htmlFragment, URI docUri) {
        Source source = new Source(htmlFragment);
        OutputDocument outputDocument = new OutputDocument(source);
        List<Element> elements = source.getAllElements();


	    for (Element element : elements) {
	    	Attributes attrs = element.getAttributes();
	    	Map<String, String> attrsUpdate = outputDocument.replace(attrs, true);
	    	if (!element.getName().contains("a")) {
				attrsUpdate.clear();
			} else {
	    		if (attrsUpdate.get("href")!=null) {
		    		String link = attrsUpdate.get("href");
		    		if (!link.contains("http")) {
			    		URI documentUri = docUri;

			    		URI anchorUri;
						try {
							anchorUri = new URI(link);
							URI result = documentUri.resolve(anchorUri);

							attrsUpdate.put("href",	result.toString());
						} catch (URISyntaxException e) {
							outputDocument.remove(element);
						}
		    		}
	    		}
	    	}

	    	if (NOT_ALLOWED_HTML_TAGS.contains(element.getName())) {
	    		Segment content = element.getContent();
	    		if (element.getName() == "script"
	    				|| element.getName() == "style"
	    				|| element.getName() == "form") {
	    			outputDocument.remove(content);
	    		}
	            outputDocument.remove(element.getStartTag());

	            if (!element.getStartTag().isSyntacticalEmptyElementTag()) {
	                outputDocument.remove(element.getEndTag());
	            }
	        }
	    }

	    String out = outputDocument.toString();
	    out = out.replaceAll("\\n", "");
	    out = out.replaceAll("\\t", "");

	    return out;
	}

}