HtmlCleanerParser.java example

Explorer

opensearchserver-master
- src
  - main
    - java
      - com
        jaeksoft
        pojodbc
        PartialList.java
        Query.java
        Row.java
        Transaction.java
        connection
        ConnectionManager.java
        DataSourceConnection.java
        JDBCConnection.java
        searchlib
        Client.java
        ClientCatalog.java
        ClientCatalogItem.java
        ClientFactory.java
        InstanceProperties.java
        Logging.java
        Monitor.java
        SearchLibException.java
        Server.java
        analysis
        AbstractAnalyzer.java
        Analyzer.java
        AnalyzerList.java
        ClassFactory.java
        ClassProperty.java
        ClassPropertyEnum.java
        CompiledAnalyzer.java
        DebugTokenFilter.java
        FieldContentPopulateFilter.java
        FilterEnum.java
        FilterFactory.java
        FilterScope.java
        FlagsTokenFilter.java
        IndexDocumentAnalyzer.java
        LanguageEnum.java
        NamedEntityPopulateFilter.java
        PerFieldAnalyzer.java
        TermSetTokenFilter.java
        TokenQueryFilter.java
        TokenTerm.java
        TokenTermPopulateFilter.java
        filter
        AbstractTermCollectFilter.java
        AbstractTermFilter.java
        AbstractTermListFilter.java
        AcronymFilter.java
        ArabicNormalizerFilter.java
        ArabicStemFilter.java
        ChineseFilter.java
        CryptFilter.java
        CzechStemFilter.java
        DailymotionFilter.java
        DailymotionTokenFilter.java
        DecodeHtmlEntitiesFilter.java
        DeduplicateTokenFilter.java
        DeduplicateTokenPositionsFilter.java
        DegreesRadiansFilter.java
        DomainFilter.java
        DutchStemFilter.java
        EdgeNGramFilter.java
        ElisionFilter.java
        ExpressionLookupFilter.java
        FrenchStemFilter.java
        GroupAllTokensFilter.java
        HunspellStemFilter.java
        HunspellSuggestFilter.java
        ISOLatin1AccentFilter.java
        IndexLookupFilter.java
        JsonPathFilter.java
        LowerCaseFilter.java
        NGramFilter.java
        NamedEntityExtractionFilter.java
        NumberFormatFilter.java
        PhoneticFilter.java
        PolishStemFilter.java
        PrefixSuffixStopFilter.java
        ProperNounFilter.java
        RegularExpressionFilter.java
        RegularExpressionReplaceFilter.java
        RemoveDuplicateCharactersFilter.java
        RemoveIncludedTermFilter.java
        RemoveTagFilter.java
        RemoveTokenTypeFilter.java
        RussianStemFilter.java
        ShingleFilter.java
        SnowballDanishFilter.java
        SnowballEnglishFilter.java
        SnowballFinnishFilter.java
        SnowballGermanFilter.java
        SnowballHungarianFilter.java
        SnowballItalianFilter.java
        SnowballNorwegianFilter.java
        SnowballPortugueseFilter.java
        SnowballRomanianFilter.java
        SnowballSpanishFilter.java
        SnowballSwedishFilter.java
        SnowballTurkishFilter.java
        StandardFilter.java
        StopFilter.java
        SynonymFilter.java
        URLNormalizerFilter.java
        VimeoFilter.java
        VimeoTokenFilter.java
        XPathFilter.java
        YouTubeFilter.java
        YouTubeTokenFilter.java
        domain
        AllDomainsTokenFilter.java
        CommonDomainTokenFilter.java
        DomainTldTokenFilter.java
        HostnameTokenFilter.java
        TldTokenFilter.java
        duplicateCharacters
        DuplicateCharactersFilter.java
        phonetic
        BeiderMorseCache.java
        BeiderMorseCacheItem.java
        BeiderMorseTokenFilter.java
        EncoderTokenFilter.java
        stop
        PrefixArray.java
        PrefixSuffixFilter.java
        StopWordFilter.java
        SuffixArray.java
        WordArray.java
        shingle
        ShingleQueue.java
        ShingleTokenFilter.java
        stopwords
        AbstractDirectoryManager.java
        StopWordsManager.java
        synonym
        SynonymMap.java
        SynonymTokenFilter.java
        SynonymsManager.java
        tokenizer
        ArabicLetterTokenizer.java
        CJKTokenizer.java
        ChineseTokenizer.java
        CustomCharTokenizerFactory.java
        EdgeNGramTokenizer.java
        KeywordTokenizer.java
        LetterOrDigitTokenizerFactory.java
        NGramTokenizer.java
        RussianLetterTokenizer.java
        StandardTokenizer.java
        TokenizerEnum.java
        TokenizerFactory.java
        WhitespaceTokenizer.java
        api
        Api.java
        ApiManager.java
        OpenSearchApi.java
        OpenSearchTypes.java
        authentication
        AuthManager.java
        autocompletion
        AutoCompletionBuildThread.java
        AutoCompletionItem.java
        AutoCompletionManager.java
        cache
        LRUCache.java
        LRUItemAbstract.java
        classifier
        ClassificationMethodEnum.java
        Classifier.java
        ClassifierItem.java
        ClassifierManager.java
        cluster
        ClusterInstance.java
        ClusterManager.java
        ClusterStatus.java
        collapse
        CollapseAbstract.java
        CollapseAdjacent.java
        CollapseCluster.java
        CollapseFunction.java
        CollapseFunctionField.java
        CollapseParameters.java
        config
        Config.java
        ConfigFileRotation.java
        ConfigFiles.java
        Mailer.java
        crawler
        FieldMap.java
        FieldMapContext.java
        FieldMapGeneric.java
        ItemField.java
        TargetStatus.java
        cache
        CrawlCacheManager.java
        CrawlCacheProvider.java
        CrawlCacheProviderEnum.java
        HadoopCrawlCache.java
        LocalFileCrawlCache.java
        common
        database
        AbstractManager.java
        AbstractPropertyManager.java
        CommonFieldTarget.java
        FetchStatus.java
        IndexStatus.java
        ParserStatus.java
        Selector.java
        TimeInterval.java
        process
        CrawlMasterAbstract.java
        CrawlQueueAbstract.java
        CrawlStatistics.java
        CrawlStatus.java
        CrawlThreadAbstract.java
        FieldMapCrawlItem.java
        database
        DatabaseCrawlAbstract.java
        DatabaseCrawlEnum.java
        DatabaseCrawlList.java
        DatabaseCrawlMaster.java
        DatabaseCrawlMongoDb.java
        DatabaseCrawlMongoDbThread.java
        DatabaseCrawlSql.java
        DatabaseCrawlSqlThread.java
        DatabaseCrawlThread.java
        DatabaseDriverNames.java
        DatabaseFieldMap.java
        DatabasePropertyManager.java
        IsolationLevelEnum.java
        file
        Event.java
        database
        FileCrawlQueue.java
        FileInfo.java
        FileInstanceType.java
        FileItem.java
        FileItemFieldEnum.java
        FileManager.java
        FilePathItem.java
        FilePathManager.java
        FilePropertyManager.java
        FileTypeEnum.java
        process
        CrawlFileMaster.java
        CrawlFileThread.java
        FileInstanceAbstract.java
        SecurityAccess.java
        fileInstances
        DropboxFileInstance.java
        FtpFileInstance.java
        FtpsFileInstance.java
        LocalFileInstance.java
        SmbFileInstance.java
        SwiftFileInstance.java
        swift
        SwiftProtocol.java
        SwiftToken.java
        spider
        CrawlFile.java
        mailbox
        MailboxCrawlItem.java
        MailboxCrawlList.java
        MailboxCrawlMaster.java
        MailboxCrawlThread.java
        MailboxFieldEnum.java
        MailboxFieldMap.java
        MailboxProtocolEnum.java
        crawler
        IMAP4Crawler.java
        MailboxAbstractCrawler.java
        POP3Crawler.java
        rest
        RestCrawlItem.java
        RestCrawlList.java
        RestCrawlMaster.java
        RestCrawlThread.java
        RestFieldMap.java
        web
        GenericCache.java
        browser
        BrowserDriver.java
        BrowserDriverEnum.java
        ChromeBrowserDriver.java
        FirefoxBrowserDriver.java
        HtmlUnitBrowserDriver.java
        HtmlUnitJavaScriptBrowserDriver.java
        InternetExplorerBrowserDriver.java
        PhantomDriver.java
        SafariBrowserDriver.java
        database
        AbstractPatternNameValueItem.java
        AbstractPatternNameValueManager.java
        CookieItem.java
        CookieManager.java
        CredentialItem.java
        CredentialManager.java
        HeaderItem.java
        HeaderManager.java
        HostUrlList.java
        LinkItem.java
        NamedItem.java
        RobotsTxtStatus.java
        UrlCrawlQueue.java
        UrlFilterItem.java
        UrlFilterList.java
        UrlItem.java
        UrlItemFieldEnum.java
        UrlManager.java
        WebPropertyManager.java
        pattern
        PatternItem.java
        PatternListMatcher.java
        PatternManager.java
        PatternMatcher.java
        process
        WebCrawlMaster.java
        WebCrawlThread.java
        robotstxt
        DisallowList.java
        DisallowSet.java
        RobotsTxt.java
        RobotsTxtCache.java
        screenshot
        ScreenshotManager.java
        ScreenshotMethod.java
        ScreenshotMethodAll.java
        ScreenshotMethodEnum.java
        ScreenshotMethodHomepage.java
        ScreenshotThread.java
        script
        WebScriptItem.java
        WebScriptManager.java
        sitemap
        SiteMapCache.java
        SiteMapItem.java
        SiteMapList.java
        SiteMapUrl.java
        spider
        ClickCapture.java
        Crawl.java
        DownloadItem.java
        HtmlArchiver.java
        HttpAbstract.java
        HttpDownloadThread.java
        HttpDownloader.java
        Link.java
        LinkList.java
        NaiveCSSParser.java
        ProxyHandler.java
        enterprise
        parser
        EnterpriseHtmlParser.java
        facet
        Facet.java
        FacetCounter.java
        FacetField.java
        FacetFieldList.java
        FacetGroup.java
        FacetList.java
        FacetListExecutor.java
        Range.java
        filter
        AuthFilter.java
        FilterAbstract.java
        FilterHits.java
        FilterList.java
        FilterListExecutor.java
        GeoFilter.java
        MirrorAndFilter.java
        QueryFilter.java
        RelativeDateFilter.java
        RequestTemplateFilter.java
        TermFilter.java
        function
        expression
        Expression.java
        FloatExpression.java
        FunctionExpression.java
        FunctionValueSource.java
        GroupExpression.java
        RootExpression.java
        ScoreExpression.java
        ScoreFunctionQuery.java
        SyntaxError.java
        operator
        DivideExpression.java
        MinusExpression.java
        MultiplyExpression.java
        OperatorExpression.java
        PlusExpression.java
        token
        DigitToken.java
        LetterOrDigitToken.java
        QuoteToken.java
        Token.java
        geo
        GeoParameters.java
        index
        DocSetHits.java
        DocSetHitsCache.java
        FieldCacheIndex.java
        FieldContent.java
        FieldContentCacheKey.java
        FieldSelectors.java
        IndexAbstract.java
        IndexConfig.java
        IndexDirectory.java
        IndexDocument.java
        IndexFile.java
        IndexSingle.java
        IndexStatistics.java
        ObjectStorageDirectory.java
        ReaderAbstract.java
        ReaderInterface.java
        ReaderLocal.java
        UpdateInterfaces.java
        WriterAbstract.java
        WriterInterface.java
        WriterLocal.java
        docvalue
        DocValueInterface.java
        DocValueNumber.java
        DocValueStringIndex.java
        DocValueType.java
        OrderDocValue.java
        RadiansDocValue.java
        ReverseOrderDocValue.java
        join
        AuthJoinItem.java
        JoinFacet.java
        JoinItem.java
        JoinList.java
        JoinListCacheKey.java
        JoinResult.java
        learning
        Learner.java
        LearnerInterface.java
        LearnerManager.java
        LearnerResultItem.java
        StandardLearner.java
        logreport
        DailyLogger.java
        ErrorParserLogger.java
        LogReportManager.java
        ocr
        HocrBox.java
        HocrDocument.java
        HocrPdf.java
        OcrManager.java
        TesseractLanguageEnum.java
        parser
        AudioParser.java
        DocParser.java
        DocxParser.java
        EmlParser.java
        ExternalParser.java
        FileSystemParser.java
        HtmlParser.java
        IcePdfParser.java
        ImageParser.java
        MapiMsgParser.java
        OdfParser.java
        OdpParser.java
        OdsParser.java
        OdtParser.java
        Parser.java
        ParserFactory.java
        ParserFieldEnum.java
        ParserFieldMap.java
        ParserFieldTarget.java
        ParserIndexDocumentIterator.java
        ParserResultItem.java
        ParserSelector.java
        ParserType.java
        ParserTypeEnum.java
        PdfParser.java
        PptParser.java
        PptxParser.java
        PublisherParser.java
        RssParser.java
        RtfParser.java
        TextParser.java
        TorrentParser.java
        VisioParser.java
        XlsParser.java
        XlsxParser.java
        XmlParser.java
        XmlXPathParser.java
        htmlParser
        DomHtmlNode.java
        FirefoxParser.java
        HtmlCleanerParser.java
        HtmlDocumentProvider.java
        HtmlNodeAbstract.java
        HtmlParserEnum.java
        HtmlUnitJavaScriptParser.java
        HtmlUnitParser.java
        JSoupHtmlNode.java
        JSoupParser.java
        NekoHtmlParser.java
        PhantomJSParser.java
        StrictXhtmlParser.java
        TagsoupParser.java
        WebDriverHtmlNode.java
        WebDriverParserAbstract.java
        torrent
        BDictionary.java
        BEnd.java
        BException.java
        BInteger.java
        BList.java
        BString.java
        BValue.java
        MetaInfo.java
        plugin
        IndexPluginBase.java
        IndexPluginCacheInterface.java
        IndexPluginInterface.java
        IndexPluginItem.java
        IndexPluginList.java
        IndexPluginTemplateList.java
        process
        ThreadAbstract.java
        ThreadItem.java
        ThreadMasterAbstract.java
        query
        ParseException.java
        QueryParser.java
        QueryUtils.java
        parser
        BooleanQueryBaseListener.java
        BooleanQueryLexer.java
        BooleanQueryListener.java
        BooleanQueryParser.java
        remote
        StreamReadObject.java
        StreamWriteObject.java
        UriHttp.java
        UriRead.java
        UriReadObject.java
        UriWriteObject.java
        UriWriteStream.java
        render
        AbstractRender.java
        AbstractRenderDocumentsJson.java
        AbstractRenderDocumentsXml.java
        AbstractRenderJson.java
        AbstractRenderXml.java
        Render.java
        RenderCSV.java
        RenderDocumentsJson.java
        RenderDocumentsXml.java
        RenderJsp.java
        RenderMoreLikeThisJson.java
        RenderMoreLikeThisXml.java
        RenderOpenSearch.java
        RenderSearchJson.java
        RenderSearchXml.java
        RenderSpellCheckJson.java
        RenderSpellCheckXml.java
        renderer
        PagingSearchResult.java
        Renderer.java
        RendererException.java
        RendererJspEnum.java
        RendererManager.java
        RendererResult.java
        RendererResults.java
        RendererSort.java
        Viewer.java
        field
        RendererField.java
        RendererFieldType.java
        RendererWidget.java
        RendererWidgetDatetime.java
        RendererWidgetType.java
        filter
        RendererFilter.java
        RendererFilterAbstract.java
        RendererFilterDate.java
        RendererFilterFacetMerge.java
        RendererFilterInterface.java
        RendererFilterItem.java
        RendererFilterQueries.java
        RendererFilterType.java
        log
        RendererLogField.java
        RendererLogParameterEnum.java
        plugin
        AuthPluginEnum.java
        AuthPluginHttpHeader.java
        AuthPluginIndexLogin.java
        AuthPluginInterface.java
        AuthPluginNtlm.java
        AuthPluginNtlmLogin.java
        AuthPluginWaffle.java
        AuthRendererTokens.java
        AuthUserCache.java
        replication
        ReplicationItem.java
        ReplicationList.java
        ReplicationMaster.java
        ReplicationMerge.java
        ReplicationThread.java
        ReplicationType.java
        SilentBackupReplication.java
        report
        ReportItem.java
        ReportItemFieldEnum.java
        ReportsManager.java
        request
        AbstractLocalSearchRequest.java
        AbstractRequest.java
        AbstractSearchRequest.java
        BoostQuery.java
        DeleteRequest.java
        DocumentsRequest.java
        MoreLikeThisRequest.java
        NamedEntityExtractionRequest.java
        RequestInterfaces.java
        RequestMap.java
        RequestTypeEnum.java
        ReturnField.java
        ReturnFieldList.java
        SearchField.java
        SearchFieldRequest.java
        SearchFilterRequest.java
        SearchMergedRequest.java
        SearchPatternRequest.java
        SpellCheckRequest.java
        result
        AbstractResult.java
        AbstractResultSearch.java
        ResultDocument.java
        ResultDocumentIterator.java
        ResultDocuments.java
        ResultDocumentsInterface.java
        ResultMoreLikeThis.java
        ResultNamedEntityExtraction.java
        ResultSearchMerged.java
        ResultSearchSingle.java
        ResultSpellCheck.java
        collector
        AbstractBaseCollector.java
        AbstractExtendsCollector.java
        CollapseDistanceInterface.java
        CollapseDocInterface.java
        CollectorInterface.java
        DistanceInterface.java
        DocIdCollector.java
        DocIdInterface.java
        JoinDocInterface.java
        JoinScoreInterface.java
        ScoreInterface.java
        collapsing
        CollapseBaseCollector.java
        CollapseCollectorInterface.java
        CollapseDistanceCollector.java
        CollapseJoinDocCollector.java
        CollapseScoreDocCollector.java
        docsethit
        DistanceCollector.java
        DocIdBufferCollector.java
        DocSetHitBaseCollector.java
        DocSetHitCollectorInterface.java
        ScoreBufferAdvancedCollector.java
        ScoreBufferCollector.java
        join
        JoinCollectorInterface.java
        JoinDocCollector.java
        JoinScoreCollector.java
        JoinUtils.java
        scheduler
        ExecutionAbstract.java
        ImmediateExecution.java
        JobItem.java
        JobList.java
        JobLog.java
        TaskAbstract.java
        TaskCronExpression.java
        TaskEnum.java
        TaskEnumItem.java
        TaskItem.java
        TaskLog.java
        TaskManager.java
        TaskProperties.java
        TaskProperty.java
        TaskPropertyDef.java
        TaskPropertyType.java
        task
        TaskBuildAutocompletion.java
        TaskDatabaseCrawlerRun.java
        TaskDatabaseScript.java
        TaskDeleteAll.java
        TaskDeleteQuery.java
        TaskDeleteSync.java
        TaskFileCrawlerEvent.java
        TaskFileCrawlerStart.java
        TaskFileCrawlerStop.java
        TaskFileManagerAction.java
        TaskFlushCrawlCache.java
        TaskFtpXmlFeed.java
        TaskLearnerRun.java
        TaskMailboxCrawlerRun.java
        TaskMergeDataIndex.java
        TaskOtherScheduler.java
        TaskPullAbstract.java
        TaskPullFields.java
        TaskPullTerms.java
        TaskQueryCheck.java
        TaskQueryXsltPost.java
        TaskReplicationRun.java
        TaskReportLoadLogFile.java
        TaskRestCrawlerRun.java
        TaskRunScript.java
        TaskSleep.java
        TaskUploadMonitor.java
        TaskUrlManagerAction.java
        TaskWebCrawlerStart.java
        TaskWebCrawlerStop.java
        TaskXmlLoad.java
        schema
        AbstractField.java
        AbstractFieldList.java
        FairSimilarity.java
        FieldValue.java
        FieldValueItem.java
        FieldValueOriginEnum.java
        Indexed.java
        Schema.java
        SchemaField.java
        SchemaFieldList.java
        Stored.java
        TermVector.java
        scoring
        AdvancedScore.java
        AdvancedScoreItem.java
        AdvancedScoreItemValue.java
        script
        AbstractScriptRunner.java
        CommandAbstract.java
        CommandEnum.java
        DatabaseScript.java
        ScriptCommandContext.java
        ScriptException.java
        ScriptLine.java
        ScriptLinesRunner.java
        ScriptManager.java
        commands
        ExecutionCommands.java
        IndexDocumentCommands.java
        ParserCommands.java
        SearchCommands.java
        Selectors.java
        VarCommands.java
        WebDriverCommands.java
        snippet
        Fragment.java
        FragmentList.java
        FragmenterAbstract.java
        NoFragmenter.java
        SentenceFragmenter.java
        SnippetBuilder.java
        SnippetField.java
        SnippetFieldList.java
        SnippetFieldValue.java
        SnippetQueries.java
        SnippetTermPositionVector.java
        SnippetVectors.java
        sort
        AbstractDistanceSorter.java
        AbstractDocIdSorter.java
        AbstractJoinScoreSorter.java
        AbstractJoinStringIndexSorter.java
        AbstractScoreSorter.java
        AbstractStringIndexSorter.java
        AscDistanceSorter.java
        AscDocIdSorter.java
        AscJoinScoreSorter.java
        AscJoinStringIndexSorter.java
        AscScoreSorter.java
        AscStringIndexSorter.java
        DescDistanceSorter.java
        DescJoinScoreSorter.java
        DescJoinStringIndexSorter.java
        DescScoreSorter.java
        DescStringIndexSorter.java
        MultiSort.java
        SortField.java
        SortFieldList.java
        SortListSorter.java
        SorterAbstract.java
        spellcheck
        SpellCheck.java
        SpellCheckCache.java
        SpellCheckCacheItem.java
        SpellCheckDistanceEnum.java
        SpellCheckField.java
        SpellCheckFieldList.java
        SpellCheckItem.java
        SuggestionItem.java
        statistics
        Aggregate.java
        DayStatistics.java
        HourStatistics.java
        MinuteStatistics.java
        MonthStatistics.java
        StatisticPeriodEnum.java
        StatisticTypeEnum.java
        StatisticsAbstract.java
        StatisticsList.java
        streamlimiter
        CachedFileStream.java
        CachedMemoryStream.java
        CachedStreamInterface.java
        LargeStringInputString.java
        LimitException.java
        StreamLimiter.java
        StreamLimiterBase64.java
        StreamLimiterFile.java
        StreamLimiterFileInstance.java
        StreamLimiterInputStream.java
        StreamLimiterString.java
        template
        EmptyIndex.java
        FileCrawler.java
        MultiIndex.java
        TemplateAbstract.java
        TemplateList.java
        UsersCredentialsIndex.java
        WebCrawler.java
        user
        IndexRole.java
        Role.java
        User.java
        UserList.java
        util
        ActiveDirectory.java
        Context.java
        DatabaseUtils.java
        Debug.java
        DomUtils.java
        EnumerationUtils.java
        ExceptionUtils.java
        ExecuteUtils.java
        ExpressionMap.java
        ExtensibleEnum.java
        ExtensibleEnumItem.java
        External.java
        FileUtils.java
        FormatUtils.java
        Geospatial.java
        GhostScript.java
        HunspellUtils.java
        IOUtils.java
        ImagePHash.java
        ImageUtils.java
        InfoCallback.java
        JSoupUtils.java
        JsonUtils.java
        Krb5Utils.java
        Lang.java
        LastModifiedAndSize.java
        LinkUtils.java
        Md5Spliter.java
        MimeUtils.java
        NativeOss.java
        NetworksUtils.java
        Pagination.java
        ParserErrorHandler.java
        PdfCrack.java
        PropertiesUtils.java
        ReadWriteLock.java
        RecursiveDirectoryBrowser.java
        RegExpUtils.java
        RoaringDocIdSet.java
        Sequence.java
        SimpleLock.java
        StringUtils.java
        ThreadUtils.java
        Timer.java
        Tracer.java
        Variables.java
        XPathParser.java
        XmlWriter.java
        array
        BytesOutputStream.java
        FloatBufferedArray.java
        FloatBufferedArrayFactory.java
        FloatBufferedArrayInterface.java
        IntBufferedArray.java
        IntBufferedArrayFactory.java
        IntBufferedArrayInterface.java
        NativeFloatBufferedArray.java
        NativeIntBufferedArray.java
        cifs
        JCIFSEngine.java
        NTLMSchemeFactory.java
        map
        GenericLink.java
        GenericMap.java
        LockedMap.java
        SourceField.java
        TargetField.java
        pdfbox
        PDFBoxHighlighter.java
        PDFBoxUtils.java
        properties
        PropertyItem.java
        PropertyItemListener.java
        PropertyManager.java
        video
        Dailymotion.java
        DailymotionItem.java
        DailymotionItemCache.java
        Vimeo.java
        VimeoItem.java
        VimeoItemCache.java
        YouTube.java
        YouTubeItem.java
        YouTubeItemCache.java
        web
        AbstractServlet.java
        ActionServlet.java
        AutoCompletionServlet.java
        DatabaseServlet.java
        DeleteServlet.java
        FileCrawlerServlet.java
        IndexServlet.java
        MonitorServlet.java
        PatternServlet.java
        PushServlet.java
        RendererServlet.java
        ReportServlet.java
        SchemaServlet.java
        ScreenshotServlet.java
        SearchServlet.java
        SearchTemplateServlet.java
        SelectServlet.java
        ServicesServlet.java
        ServletException.java
        ServletTransaction.java
        StartStopListener.java
        StatServlet.java
        URLBrowserServlet.java
        Version.java
        ViewerServlet.java
        WebCrawlerServlet.java
        controller
        AlertController.java
        ClassifierController.java
        ClusterComposer.java
        CommonController.java
        EventInterface.java
        HomeController.java
        IndexController.java
        LearningController.java
        LoginComposer.java
        PrivilegesController.java
        PushEvent.java
        RendererController.java
        ReplicationController.java
        ScopeAttribute.java
        ScriptingController.java
        ViewerController.java
        crawler
        CommonFieldTargetCrawlerController.java
        CrawlerController.java
        database
        DatabaseCrawlListController.java
        DatabaseCrawlProcessController.java
        file
        CrawlFileController.java
        FileController.java
        FileCrawlerController.java
        FilePathEditController.java
        MappingFileController.java
        RepositoryController.java
        mailbox
        MailboxController.java
        rest
        RestCrawlController.java
        web
        AbstractNamedValueController.java
        AbstractPatternController.java
        CookiesController.java
        CrawlWebController.java
        CredentialController.java
        ExclusionController.java
        HeadersController.java
        HostsController.java
        ManualWebCrawlController.java
        MappingController.java
        PatternController.java
        ProxyController.java
        RobotsTxtController.java
        ScreenshotController.java
        SiteMapController.java
        UrlController.java
        UrlFilterController.java
        WebScriptsController.java
        delete
        DeleteController.java
        query
        AbstractQueryController.java
        BoostQueriesController.java
        CollapsingController.java
        FacetController.java
        FiltersController.java
        GeneralController.java
        JoinController.java
        MoreLikeThisController.java
        NamedEntityExtractionController.java
        PatternController.java
        QueryController.java
        RequestsController.java
        ResultDocumentController.java
        ResultDocumentsController.java
        ResultMoreLikeThisController.java
        ResultNameEntityController.java
        ResultSearchController.java
        ResultSpellCheckController.java
        ReturnedController.java
        ScoringComposer.java
        SearchFieldsController.java
        SnippetController.java
        SortedController.java
        SpellCheckController.java
        report
        LogFilesController.java
        QueryReportsController.java
        ReportsController.java
        runtime
        AdvancedComposer.java
        CacheController.java
        CommandsController.java
        CrawlCacheComposer.java
        IndexController.java
        LogsController.java
        OpenSearchController.java
        RuntimeController.java
        StatisticsController.java
        SystemController.java
        TermController.java
        ThreadsController.java
        scheduler
        SchedulerController.java
        SchedulerEditController.java
        SchedulerListController.java
        SchedulerLogsController.java
        schema
        AnalyzersController.java
        AuthComposer.java
        AutoCompletionComposer.java
        CommonDirectoryController.java
        FieldsController.java
        ParserController.java
        StopWordsController.java
        SynonymsController.java
        update
        AbstractUploadController.java
        UpdateFormController.java
        UploadTxtController.java
        UploadXmlController.java
        converter
        DateConverter.java
        DurationConverter.java
        IntegerConverter.java
        PercentConverter.java
        RateConverter.java
        SizeConverter.java
        model
        FieldContentModel.java
        xmlrpc
        AbstractXmlRpc.java
        DeleteXmlRpc.java
        SearchXmlRpc.java
        UpdateXmlRpc.java
        webservice
        AbstractDirectoryImpl.java
        ApiIdentifier.java
        CommonListResult.java
        CommonResult.java
        CommonServices.java
        JSONParam.java
        JacksonConfig.java
        NameLinkItem.java
        RestApplication.java
        RestClient.java
        RestException.java
        WebServiceEnum.java
        analyzer
        AnalyzerImpl.java
        AnalyzerItem.java
        AnalyzerListResult.java
        AnalyzerResult.java
        AnalyzerTestResult.java
        RestAnalyzer.java
        SoapAnalyzer.java
        autocompletion
        AutoCompletionImpl.java
        AutoCompletionResult.java
        RestAutoCompletion.java
        SoapAutoCompletion.java
        client
        JsonTransaction.java
        RestJsonClient.java
        cluster
        ClusterImpl.java
        ClusterInfoResult.java
        RestCluster.java
        command
        CommandImpl.java
        RestCommand.java
        SoapCommand.java
        crawler
        CrawlerUtils.java
        database
        DatabaseImpl.java
        RestDatabase.java
        SoapDatabase.java
        filecrawler
        FileCrawlerImpl.java
        FilePathResult.java
        RestFileCrawler.java
        SoapFileCrawler.java
        rest
        RestCrawlerImpl.java
        RestRestCrawler.java
        SoapRestCrawler.java
        webcrawler
        HostnamesResult.java
        RestWebCrawler.java
        SoapWebCrawler.java
        WebCrawlerImpl.java
        document
        DocumentImpl.java
        DocumentUpdate.java
        RestDocument.java
        SoapDocument.java
        fields
        FieldImpl.java
        RestField.java
        ResultField.java
        ResultFieldList.java
        ResultTermList.java
        SchemaFieldRecord.java
        SoapField.java
        index
        IndexImpl.java
        IndexInfo.java
        RestIndex.java
        ResultIndex.java
        ResultIndexList.java
        SoapIndex.java
        learner
        LearnerImpl.java
        LearnerResult.java
        RestLearner.java
        SoapLearner.java
        monitor
        MonitorImpl.java
        MonitorResult.java
        RestMonitor.java
        SoapMonitor.java
        parser
        ParserDocumentsResult.java
        ParserImpl.java
        ParserItemResult.java
        RestParser.java
        query
        CommonQuery.java
        QueryAbstract.java
        QueryTemplateResultList.java
        document
        DocumentResult.java
        DocumentsImpl.java
        DocumentsQuery.java
        DocumentsResult.java
        DocumentsTemplateResult.java
        FieldValueList.java
        FunctionFieldValue.java
        IndexDocumentResult.java
        RestDocuments.java
        SnippetValueList.java
        morelikethis
        MoreLikeThisImpl.java
        MoreLikeThisQuery.java
        MoreLikeThisResult.java
        MoreLikeThisTemplateResult.java
        RestMoreLikeThis.java
        SoapMoreLikeThis.java
        namedEntity
        NamedEntityImpl.java
        NamedEntityQuery.java
        NamedEntityResult.java
        NamedEntityTemplateResult.java
        RestNamedEntity.java
        search
        FacetFieldItem.java
        FacetResult.java
        RestSearch.java
        SearchFieldQuery.java
        SearchImpl.java
        SearchPatternQuery.java
        SearchQueryAbstract.java
        SearchQueryBatch.java
        SearchResult.java
        SearchTemplateResult.java
        SoapSearch.java
        spellcheck
        RestSpellCheck.java
        SoapSpellCheck.java
        SpellcheckImpl.java
        SpellcheckResult.java
        replication
        ReplicationImpl.java
        ReplicationResult.java
        RestReplication.java
        scheduler
        RestScheduler.java
        SchedulerDefinition.java
        SchedulerImpl.java
        SchedulerResult.java
        SoapScheduler.java
        screenshot
        RestScreenshot.java
        ScreenshotImpl.java
        script
        RestScript.java
        ScriptImpl.java
        ScriptResult.java
        stopwords
        RestStopWords.java
        SoapStopWords.java
        StopWordsImpl.java
        synonyms
        RestSynonyms.java
        SoapSynonyms.java
        SynonymsImpl.java
        user
        RestUser.java
        UserImpl.java
  - test
    - java
      - com
        jaeksoft
        searchlib
        test
        IntegrationTest.java
        LegacyTest.java
        LibraryTest.java
        SmbFileTest.java
        legacy
        AutocompletionTest.java
        CommonTestCase.java
        DeleteIndexTest.java
        DeleteTest.java
        FileCrawlerTest.java
        Full.java
        IndexTest.java
        OptimizeTest.java
        PatternTest.java
        SearchTemplateTest.java
        SearchTest.java
        WebCrawlerTest.java
        WebTemplateTest.java
        library
        LibraryIndexCreateExistsListTest.java
        LibraryIndexDataTest.java
        LibraryIndexFileTest.java
        LibrarySchemaTest.java
        rest
        CommonRestAPI.java
        RestAutocompletionTest.java
        RestDeleteIndexTest.java
        RestDeleteTest.java
        RestFacetTest.java
        RestIndexCreateExistsListTest.java
        RestSchedulerTest.java
        RestSchemaTest.java
        RestSearchTest.java
        RestStatusTest.java
        RestUpdateTest.java
        RestWebCrawlerTest.java

/**   
 * License Agreement for OpenSearchServer
 *
 * Copyright (C) 2012-2013 Emmanuel Keller / Jaeksoft
 * 
 * http://www.open-search-server.com
 * 
 * This file is part of OpenSearchServer.
 *
 * OpenSearchServer is free software: you can redistribute it and/or
 * modify it under the terms of the GNU General Public License as published by
 * the Free Software Foundation, either version 3 of the License, or
 *  (at your option) any later version.
 *
 * OpenSearchServer is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 * GNU General Public License for more details.
 *
 *  You should have received a copy of the GNU General Public License
 *  along with OpenSearchServer. 
 *  If not, see <http://www.gnu.org/licenses/>.
 **/

package com.jaeksoft.searchlib.parser.htmlParser;

import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.io.StringReader;
import java.nio.charset.Charset;
import java.nio.charset.UnsupportedCharsetException;
import java.util.Collection;

import javax.xml.parsers.ParserConfigurationException;

import org.htmlcleaner.CleanerProperties;
import org.htmlcleaner.DomSerializer;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.SimpleHtmlSerializer;
import org.htmlcleaner.TagNode;
import org.htmlcleaner.XPatherException;
import org.w3c.dom.Document;
import org.xml.sax.SAXException;

import com.jaeksoft.searchlib.Logging;

public class HtmlCleanerParser extends HtmlDocumentProvider {

	private final HtmlCleaner cleaner;

	private TagNode rootTagNode = null;

	private String charsetCache = null;

	public HtmlCleanerParser() {
		super(HtmlParserEnum.HtmlCleanerParser);
		cleaner = new HtmlCleaner();
		CleanerProperties props = cleaner.getProperties();
		props.setNamespacesAware(true);
	}

	@Override
	protected HtmlNodeAbstract<?> getDocument(String charset,
			InputStream inputStream) throws SAXException, IOException,
			ParserConfigurationException {
		rootTagNode = cleaner.clean(inputStream, charset);
		charsetCache = null;
		return getDomHtmlNode();
	}

	@Override
	protected HtmlNodeAbstract<?> getDocument(String pageSource)
			throws IOException, ParserConfigurationException {
		rootTagNode = cleaner.clean(new StringReader(pageSource));
		charsetCache = null;
		return getDomHtmlNode();
	}

	private DomHtmlNode getDomHtmlNode() throws ParserConfigurationException {
		Document document = new DomSerializer(cleaner.getProperties(), true)
				.createDOM(rootTagNode);
		String lang = rootTagNode.getAttributeByName("lang");
		if (lang != null)
			document.getDocumentElement().setAttribute("lang", lang);
		return new DomHtmlNode(document);
	}

	public String findCharset() {
		if (charsetCache != null)
			return charsetCache;
		String charsetCache = getMetaCharset();
		if (charsetCache == null)
			return null;
		try {
			Charset.forName(charsetCache);
			return charsetCache;
		} catch (UnsupportedCharsetException e1) {
			try {
				charsetCache = charsetCache.toUpperCase();
				Charset.forName(charsetCache);
				return charsetCache;
			} catch (UnsupportedCharsetException e2) {
				Logging.warn(e2);
				charsetCache = null;
				return null;
			}
		}
	}

	public void writeHtmlToFile(File htmlFile) throws IOException {
		SimpleHtmlSerializer htmlSerializer = new SimpleHtmlSerializer(
				cleaner.getProperties());
		String charset = findCharset();
		if (charset != null)
			htmlSerializer.writeToFile(rootTagNode, htmlFile.getAbsolutePath(),
					charset);
		else
			htmlSerializer.writeToFile(rootTagNode, htmlFile.getAbsolutePath());
	}

	public TagNode getTagNode() {
		return rootTagNode;
	}

	final public int xpath(String xPathExpression,
			Collection<TagNode> tagNodeCollection) throws XPatherException {
		if (xPathExpression.startsWith("/html"))
			xPathExpression = xPathExpression.substring(5);
		Object[] objects = rootTagNode.evaluateXPath(xPathExpression);
		if (objects == null)
			return 0;
		for (Object object : objects)
			tagNodeCollection.add((TagNode) object);
		return objects.length;
	}

	@Override
	public boolean isXPathSupported() {
		return true;
	}

}