HtmlDocument.java example

Explorer

Solbase-Lucene-master
- contrib
  - analyzers
    - common
      - src
        java
        org
        apache
        lucene
        analysis
        ar
        ArabicAnalyzer.java
        ArabicLetterTokenizer.java
        ArabicNormalizationFilter.java
        ArabicNormalizer.java
        ArabicStemFilter.java
        ArabicStemmer.java
        br
        BrazilianAnalyzer.java
        BrazilianStemFilter.java
        BrazilianStemmer.java
        cjk
        CJKAnalyzer.java
        CJKTokenizer.java
        cn
        ChineseAnalyzer.java
        ChineseFilter.java
        ChineseTokenizer.java
        compound
        CompoundWordTokenFilterBase.java
        DictionaryCompoundWordTokenFilter.java
        HyphenationCompoundWordTokenFilter.java
        hyphenation
        ByteVector.java
        CharVector.java
        Hyphen.java
        Hyphenation.java
        HyphenationException.java
        HyphenationTree.java
        PatternConsumer.java
        PatternParser.java
        TernaryTree.java
        cz
        CzechAnalyzer.java
        de
        GermanAnalyzer.java
        GermanStemFilter.java
        GermanStemmer.java
        el
        GreekAnalyzer.java
        GreekCharsets.java
        GreekLowerCaseFilter.java
        fa
        PersianAnalyzer.java
        PersianNormalizationFilter.java
        PersianNormalizer.java
        fr
        ElisionFilter.java
        FrenchAnalyzer.java
        FrenchStemFilter.java
        FrenchStemmer.java
        miscellaneous
        EmptyTokenStream.java
        PrefixAndSuffixAwareTokenFilter.java
        PrefixAwareTokenFilter.java
        SingleTokenTokenStream.java
        ngram
        EdgeNGramTokenFilter.java
        EdgeNGramTokenizer.java
        NGramTokenFilter.java
        NGramTokenizer.java
        nl
        DutchAnalyzer.java
        DutchStemFilter.java
        DutchStemmer.java
        WordlistLoader.java
        payloads
        AbstractEncoder.java
        DelimitedPayloadTokenFilter.java
        FloatEncoder.java
        IdentityEncoder.java
        IntegerEncoder.java
        NumericPayloadTokenFilter.java
        PayloadEncoder.java
        PayloadHelper.java
        TokenOffsetPayloadTokenFilter.java
        TypeAsPayloadTokenFilter.java
        position
        PositionFilter.java
        query
        QueryAutoStopWordAnalyzer.java
        reverse
        ReverseStringFilter.java
        ru
        RussianAnalyzer.java
        RussianCharsets.java
        RussianLetterTokenizer.java
        RussianLowerCaseFilter.java
        RussianStemFilter.java
        RussianStemmer.java
        shingle
        ShingleAnalyzerWrapper.java
        ShingleFilter.java
        ShingleMatrixFilter.java
        sinks
        DateRecognizerSinkFilter.java
        DateRecognizerSinkTokenizer.java
        TokenRangeSinkFilter.java
        TokenRangeSinkTokenizer.java
        TokenTypeSinkFilter.java
        TokenTypeSinkTokenizer.java
        th
        ThaiAnalyzer.java
        ThaiWordFilter.java
        test
        org
        apache
        lucene
        analysis
        ar
        TestArabicAnalyzer.java
        TestArabicNormalizationFilter.java
        TestArabicStemFilter.java
        br
        TestBrazilianStemmer.java
        cjk
        TestCJKTokenizer.java
        cn
        TestChineseTokenizer.java
        compound
        TestCompoundWordTokenFilter.java
        cz
        TestCzechAnalyzer.java
        de
        TestGermanStemFilter.java
        el
        GreekAnalyzerTest.java
        fa
        TestPersianAnalyzer.java
        TestPersianNormalizationFilter.java
        fr
        TestElision.java
        TestFrenchAnalyzer.java
        miscellaneous
        TestEmptyTokenStream.java
        TestPrefixAndSuffixAwareTokenFilter.java
        TestPrefixAwareTokenFilter.java
        TestSingleTokenTokenFilter.java
        ngram
        EdgeNGramTokenFilterTest.java
        EdgeNGramTokenizerTest.java
        NGramTokenFilterTest.java
        NGramTokenizerTest.java
        nl
        TestDutchStemmer.java
        payloads
        DelimitedPayloadTokenFilterTest.java
        NumericPayloadTokenFilterTest.java
        TokenOffsetPayloadTokenFilterTest.java
        TypeAsPayloadTokenFilterTest.java
        position
        PositionFilterTest.java
        query
        QueryAutoStopWordAnalyzerTest.java
        reverse
        TestReverseStringFilter.java
        ru
        TestRussianAnalyzer.java
        TestRussianStem.java
        shingle
        ShingleAnalyzerWrapperTest.java
        ShingleFilterTest.java
        TestShingleMatrixFilter.java
        sinks
        DateRecognizerSinkTokenizerTest.java
        TokenRangeSinkTokenizerTest.java
        TokenTypeSinkTokenizerTest.java
        th
        TestThaiAnalyzer.java
    - smartcn
      - src
        java
        org
        apache
        lucene
        analysis
        cn
        smart
        AnalyzerProfile.java
        CharType.java
        SentenceTokenizer.java
        SmartChineseAnalyzer.java
        Utility.java
        WordSegmenter.java
        WordTokenFilter.java
        WordType.java
        hhmm
        AbstractDictionary.java
        BiSegGraph.java
        BigramDictionary.java
        HHMMSegmenter.java
        PathNode.java
        SegGraph.java
        SegToken.java
        SegTokenFilter.java
        SegTokenPair.java
        WordDictionary.java
        test
        org
        apache
        lucene
        analysis
        cn
        smart
        TestSmartChineseAnalyzer.java
  - ant
    - src
      - java
        org
        apache
        lucene
        ant
        ConfigurableDocumentHandler.java
        DocumentHandler.java
        DocumentHandlerException.java
        FileExtensionDocumentHandler.java
        HtmlDocument.java
        IndexTask.java
        TextDocument.java
      - test
        org
        apache
        lucene
        ant
        DocumentTestCase.java
        HtmlDocumentTest.java
        IndexTaskTest.java
        TextDocumentTest.java
  - benchmark
    - src
      - java
        org
        apache
        lucene
        benchmark
        Constants.java
        byTask
        Benchmark.java
        PerfRunData.java
        feeds
        AbstractQueryMaker.java
        ContentSource.java
        DemoHTMLParser.java
        DirContentSource.java
        DocData.java
        DocMaker.java
        EnwikiContentSource.java
        EnwikiDocMaker.java
        EnwikiQueryMaker.java
        FileBasedQueryMaker.java
        HTMLParser.java
        LineDocMaker.java
        LineDocSource.java
        NoMoreDataException.java
        QueryMaker.java
        ReutersContentSource.java
        ReutersQueryMaker.java
        SimpleQueryMaker.java
        SimpleSloppyPhraseQueryMaker.java
        SingleDocSource.java
        SortableSingleDocSource.java
        TrecContentSource.java
        programmatic
        Sample.java
        stats
        Points.java
        Report.java
        TaskStats.java
        tasks
        AddDocTask.java
        BenchmarkHighlighter.java
        ClearStatsTask.java
        CloseIndexTask.java
        CloseReaderTask.java
        CommitIndexTask.java
        ConsumeContentSourceTask.java
        CreateIndexTask.java
        DeleteByPercentTask.java
        DeleteDocTask.java
        FlushReaderTask.java
        NearRealtimeReaderTask.java
        NewAnalyzerTask.java
        NewRoundTask.java
        OpenIndexTask.java
        OpenReaderTask.java
        OptimizeTask.java
        PerfTask.java
        PrintReaderTask.java
        ReadTask.java
        ReadTokensTask.java
        ReopenReaderTask.java
        RepAllTask.java
        RepSelectByPrefTask.java
        RepSumByNameRoundTask.java
        RepSumByNameTask.java
        RepSumByPrefRoundTask.java
        RepSumByPrefTask.java
        ReportTask.java
        ResetInputsTask.java
        ResetSystemEraseTask.java
        ResetSystemSoftTask.java
        SearchTask.java
        SearchTravRetHighlightTask.java
        SearchTravRetLoadFieldSelectorTask.java
        SearchTravRetTask.java
        SearchTravRetVectorHighlightTask.java
        SearchTravTask.java
        SearchWithSortTask.java
        SetPropTask.java
        TaskSequence.java
        UpdateDocTask.java
        WarmTask.java
        WriteLineDocTask.java
        utils
        Algorithm.java
        Config.java
        FileUtils.java
        Format.java
        StringBufferReader.java
        quality
        Judge.java
        QualityBenchmark.java
        QualityQuery.java
        QualityQueryParser.java
        QualityStats.java
        trec
        QueryDriver.java
        Trec1MQReader.java
        TrecJudge.java
        TrecTopicsReader.java
        utils
        DocNameExtractor.java
        QualityQueriesFinder.java
        SimpleQQParser.java
        SubmissionReport.java
        stats
        MemUsage.java
        QueryData.java
        TestData.java
        TestRunData.java
        TimeData.java
        utils
        ExtractReuters.java
        ExtractWikipedia.java
        NoDeletionPolicy.java
      - test
        org
        apache
        lucene
        benchmark
        BenchmarkTestCase.java
        byTask
        TestPerfTasksLogic.java
        TestPerfTasksParse.java
        feeds
        DocMakerTest.java
        LineDocSourceTest.java
        TrecContentSourceTest.java
        tasks
        CountingHighlighterTestTask.java
        CountingSearchTestTask.java
        CreateIndexTaskTest.java
        PerfTaskTest.java
        WriteLineDocTaskTest.java
        quality
        TestQualityRun.java
  - collation
    - src
      - java
        org
        apache
        lucene
        collation
        CollationKeyAnalyzer.java
        CollationKeyFilter.java
        ICUCollationKeyAnalyzer.java
        ICUCollationKeyFilter.java
      - test
        org
        apache
        lucene
        collation
        CollationTestBase.java
        TestCollationKeyAnalyzer.java
        TestCollationKeyFilter.java
        TestICUCollationKeyAnalyzer.java
        TestICUCollationKeyFilter.java
  - db
    - bdb
      - src
        java
        com
        sleepycat
        db
        DbHandleExtractor.java
        org
        apache
        lucene
        store
        db
        Block.java
        DbDirectory.java
        DbIndexInput.java
        DbIndexOutput.java
        DbLock.java
        File.java
        test
        org
        apache
        lucene
        store
        db
        DbStoreTest.java
        SanityLoadLibrary.java
    - bdb-je
      - src
        java
        org
        apache
        lucene
        store
        je
        Block.java
        File.java
        JEDirectory.java
        JEIndexInput.java
        JEIndexOutput.java
        JELock.java
        test
        org
        apache
        lucene
        store
        je
        JEStoreTest.java
  - fast-vector-highlighter
    - src
      - java
        org
        apache
        lucene
        search
        vectorhighlight
        BaseFragmentsBuilder.java
        FastVectorHighlighter.java
        FieldFragList.java
        FieldPhraseList.java
        FieldQuery.java
        FieldTermStack.java
        FragListBuilder.java
        FragmentsBuilder.java
        ScoreOrderFragmentsBuilder.java
        SimpleFragListBuilder.java
        SimpleFragmentsBuilder.java
      - test
        org
        apache
        lucene
        search
        vectorhighlight
        AbstractTestCase.java
        FieldPhraseListTest.java
        FieldQueryTest.java
        FieldTermStackTest.java
        IndexTimeSynonymTest.java
        ScoreOrderFragmentsBuilderTest.java
        SimpleFragListBuilderTest.java
        SimpleFragmentsBuilderTest.java
  - highlighter
    - src
      - java
        org
        apache
        lucene
        search
        highlight
        DefaultEncoder.java
        Encoder.java
        Formatter.java
        Fragmenter.java
        GradientFormatter.java
        Highlighter.java
        InvalidTokenOffsetsException.java
        NullFragmenter.java
        QueryScorer.java
        QueryTermExtractor.java
        QueryTermScorer.java
        Scorer.java
        SimpleFragmenter.java
        SimpleHTMLEncoder.java
        SimpleHTMLFormatter.java
        SimpleSpanFragmenter.java
        SpanGradientFormatter.java
        TextFragment.java
        TokenGroup.java
        TokenSources.java
        WeightedSpanTerm.java
        WeightedSpanTermExtractor.java
        WeightedTerm.java
      - test
        org
        apache
        lucene
        search
        highlight
        HighlighterTest.java
  - instantiated
    - src
      - java
        org
        apache
        lucene
        store
        instantiated
        FieldSetting.java
        FieldSettings.java
        InstantiatedAllTermDocs.java
        InstantiatedDocument.java
        InstantiatedIndex.java
        InstantiatedIndexReader.java
        InstantiatedIndexWriter.java
        InstantiatedTerm.java
        InstantiatedTermDocs.java
        InstantiatedTermDocumentInformation.java
        InstantiatedTermEnum.java
        InstantiatedTermFreqVector.java
        InstantiatedTermPositionVector.java
        InstantiatedTermPositions.java
      - test
        org
        apache
        lucene
        store
        instantiated
        TestEmptyIndex.java
        TestIndicesEquals.java
        TestRealTime.java
        TestSerialization.java
        TestUnoptimizedReaderOnConstructor.java
  - lucli
    - src
      - java
        lucli
        LuceneMethods.java
        Lucli.java
  - memory
    - src
      - java
        org
        apache
        lucene
        index
        memory
        AnalyzerUtil.java
        MemoryIndex.java
        PatternAnalyzer.java
        SynonymMap.java
        SynonymTokenFilter.java
      - test
        org
        apache
        lucene
        index
        memory
        MemoryIndexTest.java
        PatternAnalyzerTest.java
        TestSynonymTokenFilter.java
  - misc
    - src
      - java
        org
        apache
        lucene
        index
        FieldNormModifier.java
        TermVectorAccessor.java
        misc
        ChainedFilter.java
        HighFreqTerms.java
        IndexMergeTool.java
        LengthNormModifier.java
        SweetSpotSimilarity.java
        queryParser
        analyzing
        AnalyzingQueryParser.java
        complexPhrase
        ComplexPhraseQueryParser.java
        precedence
        CharStream.java
        FastCharStream.java
        ParseException.java
        PrecedenceQueryParser.java
        PrecedenceQueryParserConstants.java
        PrecedenceQueryParserTokenManager.java
        Token.java
        TokenMgrError.java
      - test
        org
        apache
        lucene
        index
        TestFieldNormModifier.java
        TestTermVectorAccessor.java
        misc
        ChainedFilterTest.java
        SweetSpotSimilarityTest.java
        TestLengthNormModifier.java
        queryParser
        analyzing
        TestAnalyzingQueryParser.java
        complexPhrase
        TestComplexPhraseQuery.java
        precedence
        TestPrecedenceQueryParser.java
  - queries
    - src
      - java
        org
        apache
        lucene
        search
        BooleanFilter.java
        BoostingQuery.java
        DuplicateFilter.java
        FilterClause.java
        FuzzyLikeThisQuery.java
        TermsFilter.java
        similar
        MoreLikeThis.java
        MoreLikeThisQuery.java
        SimilarityQueries.java
      - test
        org
        apache
        lucene
        search
        BooleanFilterTest.java
        BoostingQueryTest.java
        DuplicateFilterTest.java
        FuzzyLikeThisQueryTest.java
        TermsFilterTest.java
        similar
        TestMoreLikeThis.java
  - queryparser
    - src
      - java
        org
        apache
        lucene
        queryParser
        core
        QueryNodeError.java
        QueryNodeException.java
        QueryNodeParseException.java
        QueryParserHelper.java
        builders
        QueryBuilder.java
        QueryTreeBuilder.java
        config
        FieldConfig.java
        FieldConfigListener.java
        QueryConfigHandler.java
        messages
        QueryParserMessages.java
        nodes
        AndQueryNode.java
        AnyQueryNode.java
        BooleanQueryNode.java
        BoostQueryNode.java
        DeletedQueryNode.java
        FieldQueryNode.java
        FieldableNode.java
        FuzzyQueryNode.java
        GroupQueryNode.java
        MatchAllDocsQueryNode.java
        MatchNoDocsQueryNode.java
        ModifierQueryNode.java
        NoTokenFoundQueryNode.java
        OpaqueQueryNode.java
        OrQueryNode.java
        ParametricQueryNode.java
        ParametricRangeQueryNode.java
        PathQueryNode.java
        PhraseSlopQueryNode.java
        ProximityQueryNode.java
        QueryNode.java
        QueryNodeImpl.java
        QuotedFieldQueryNode.java
        SlopQueryNode.java
        TextableQueryNode.java
        TokenizedPhraseQueryNode.java
        parser
        EscapeQuerySyntax.java
        SyntaxParser.java
        processors
        NoChildOptimizationQueryNodeProcessor.java
        QueryNodeProcessor.java
        QueryNodeProcessorImpl.java
        QueryNodeProcessorPipeline.java
        RemoveDeletedQueryNodesProcessor.java
        util
        QueryNodeOperation.java
        UnescapedCharSequence.java
        standard
        MultiFieldQueryParserWrapper.java
        QueryParserUtil.java
        QueryParserWrapper.java
        StandardQueryParser.java
        builders
        AnyQueryNodeBuilder.java
        BooleanQueryNodeBuilder.java
        BoostQueryNodeBuilder.java
        FieldQueryNodeBuilder.java
        FuzzyQueryNodeBuilder.java
        GroupQueryNodeBuilder.java
        MatchAllDocsQueryNodeBuilder.java
        MatchNoDocsQueryNodeBuilder.java
        ModifierQueryNodeBuilder.java
        MultiPhraseQueryNodeBuilder.java
        PhraseQueryNodeBuilder.java
        PrefixWildcardQueryNodeBuilder.java
        RangeQueryNodeBuilder.java
        SlopQueryNodeBuilder.java
        StandardBooleanQueryNodeBuilder.java
        StandardQueryBuilder.java
        StandardQueryTreeBuilder.java
        WildcardQueryNodeBuilder.java
        config
        AllowLeadingWildcardAttribute.java
        AllowLeadingWildcardAttributeImpl.java
        AnalyzerAttribute.java
        AnalyzerAttributeImpl.java
        BoostAttribute.java
        BoostAttributeImpl.java
        DateResolutionAttribute.java
        DateResolutionAttributeImpl.java
        DefaultOperatorAttribute.java
        DefaultOperatorAttributeImpl.java
        DefaultPhraseSlopAttribute.java
        DefaultPhraseSlopAttributeImpl.java
        FieldBoostMapAttribute.java
        FieldBoostMapAttributeImpl.java
        FieldBoostMapFCListener.java
        FieldDateResolutionFCListener.java
        FieldDateResolutionMapAttribute.java
        FieldDateResolutionMapAttributeImpl.java
        FuzzyAttribute.java
        FuzzyAttributeImpl.java
        LocaleAttribute.java
        LocaleAttributeImpl.java
        LowercaseExpandedTermsAttribute.java
        LowercaseExpandedTermsAttributeImpl.java
        MultiFieldAttribute.java
        MultiFieldAttributeImpl.java
        MultiTermRewriteMethodAttribute.java
        MultiTermRewriteMethodAttributeImpl.java
        PositionIncrementsAttribute.java
        PositionIncrementsAttributeImpl.java
        RangeCollatorAttribute.java
        RangeCollatorAttributeImpl.java
        StandardQueryConfigHandler.java
        nodes
        BooleanModifierNode.java
        MultiPhraseQueryNode.java
        PrefixWildcardQueryNode.java
        RangeQueryNode.java
        StandardBooleanQueryNode.java
        WildcardQueryNode.java
        parser
        EscapeQuerySyntaxImpl.java
        JavaCharStream.java
        ParseException.java
        StandardSyntaxParser.java
        StandardSyntaxParserConstants.java
        StandardSyntaxParserTokenManager.java
        Token.java
        TokenMgrError.java
        processors
        AllowLeadingWildcardProcessor.java
        AnalyzerQueryNodeProcessor.java
        BooleanSingleChildOptimizationQueryNodeProcessor.java
        BoostQueryNodeProcessor.java
        DefaultPhraseSlopQueryNodeProcessor.java
        FuzzyQueryNodeProcessor.java
        GroupQueryNodeProcessor.java
        LowercaseExpandedTermsQueryNodeProcessor.java
        MatchAllDocsQueryNodeProcessor.java
        MultiFieldQueryNodeProcessor.java
        MultiTermRewriteMethodProcessor.java
        ParametricRangeQueryNodeProcessor.java
        PhraseSlopQueryNodeProcessor.java
        RemoveEmptyNonLeafQueryNodeProcessor.java
        StandardQueryNodeProcessorPipeline.java
        WildcardQueryNodeProcessor.java
      - test
        org
        apache
        lucene
        queryParser
        spans
        SpanOrQueryNodeBuilder.java
        SpanTermQueryNodeBuilder.java
        SpansQueryConfigHandler.java
        SpansQueryTreeBuilder.java
        SpansValidatorQueryNodeProcessor.java
        TestSpanQueryParser.java
        TestSpanQueryParserSimpleSample.java
        UniqueFieldAttribute.java
        UniqueFieldAttributeImpl.java
        UniqueFieldQueryNodeProcessor.java
        standard
        TestMultiAnalyzerQPHelper.java
        TestMultiAnalyzerWrapper.java
        TestMultiFieldQPHelper.java
        TestMultiFieldQueryParserWrapper.java
        TestQPHelper.java
        TestQueryParserWrapper.java
  - regex
    - src
      - java
        org
        apache
        lucene
        search
        regex
        JakartaRegexpCapabilities.java
        JavaUtilRegexCapabilities.java
        RegexCapabilities.java
        RegexQuery.java
        RegexQueryCapable.java
        RegexTermEnum.java
        SpanRegexQuery.java
        regexp
        RegexpTunnel.java
      - test
        org
        apache
        lucene
        search
        regex
        TestRegexQuery.java
        TestSpanRegexQuery.java
  - remote
    - src
      - java
        org
        apache
        lucene
        search
        RMIRemoteSearchable.java
        RemoteCachingWrapperFilter.java
        RemoteSearchable.java
      - test
        org
        apache
        lucene
        search
        RemoteCachingWrapperFilterHelper.java
        TestRemoteCachingWrapperFilter.java
        TestRemoteSearchable.java
        TestRemoteSort.java
  - snowball
    - src
      - java
        org
        apache
        lucene
        analysis
        snowball
        SnowballAnalyzer.java
        SnowballFilter.java
        tartarus
        snowball
        Among.java
        SnowballProgram.java
        TestApp.java
        ext
        DanishStemmer.java
        DutchStemmer.java
        EnglishStemmer.java
        FinnishStemmer.java
        FrenchStemmer.java
        German2Stemmer.java
        GermanStemmer.java
        HungarianStemmer.java
        ItalianStemmer.java
        KpStemmer.java
        LovinsStemmer.java
        NorwegianStemmer.java
        PorterStemmer.java
        PortugueseStemmer.java
        RomanianStemmer.java
        RussianStemmer.java
        SpanishStemmer.java
        SwedishStemmer.java
        TurkishStemmer.java
      - test
        org
        apache
        lucene
        analysis
        snowball
        TestSnowball.java
  - spatial
    - src
      - java
        org
        apache
        lucene
        spatial
        geohash
        GeoHashDistanceFilter.java
        GeoHashUtils.java
        geometry
        CartesianPoint.java
        DistanceUnits.java
        FixedLatLng.java
        FloatLatLng.java
        LatLng.java
        shape
        DistanceApproximation.java
        Ellipse.java
        Geometry2D.java
        IntersectCase.java
        LLRect.java
        LineSegment.java
        Point2D.java
        Rectangle.java
        Vector2D.java
        tier
        CartesianPolyFilterBuilder.java
        CartesianShapeFilter.java
        DistanceFieldComparatorSource.java
        DistanceFilter.java
        DistanceHandler.java
        DistanceQueryBuilder.java
        DistanceUtils.java
        InvalidGeoException.java
        LatLongDistanceFilter.java
        Shape.java
        projections
        CartesianTierPlotter.java
        IProjector.java
        SinusoidalProjector.java
      - test
        org
        apache
        lucene
        spatial
        tier
        DistanceCheck.java
        PolyShape.java
        TestCartesian.java
        TestDistance.java
  - spellchecker
    - src
      - java
        org
        apache
        lucene
        search
        spell
        Dictionary.java
        JaroWinklerDistance.java
        LevensteinDistance.java
        LuceneDictionary.java
        NGramDistance.java
        PlainTextDictionary.java
        SpellChecker.java
        StringDistance.java
        SuggestWord.java
        SuggestWordQueue.java
      - test
        org
        apache
        lucene
        search
        spell
        TestJaroWinklerDistance.java
        TestLevenshteinDistance.java
        TestLuceneDictionary.java
        TestNGramDistance.java
        TestPlainTextDictionary.java
        TestSpellChecker.java
  - surround
    - src
      - java
        org
        apache
        lucene
        queryParser
        surround
        parser
        CharStream.java
        FastCharStream.java
        ParseException.java
        QueryParser.java
        QueryParserConstants.java
        QueryParserTokenManager.java
        Token.java
        TokenMgrError.java
        query
        AndQuery.java
        BasicQueryFactory.java
        ComposedQuery.java
        DistanceQuery.java
        DistanceSubQuery.java
        FieldsQuery.java
        NotQuery.java
        OrQuery.java
        SimpleTerm.java
        SpanNearClauseFactory.java
        SrndBooleanQuery.java
        SrndPrefixQuery.java
        SrndQuery.java
        SrndTermQuery.java
        SrndTruncQuery.java
        TooManyBasicQueries.java
      - test
        org
        apache
        lucene
        queryParser
        surround
        query
        BooleanQueryTst.java
        ExceptionQueryTst.java
        SingleFieldTestDb.java
        Test01Exceptions.java
        Test02Boolean.java
        Test03Distance.java
  - swing
    - src
      - java
        org
        apache
        lucene
        swing
        models
        ListSearcher.java
        TableSearcher.java
      - test
        org
        apache
        lucene
        swing
        models
        BaseListModel.java
        BaseTableModel.java
        DataStore.java
        ListSearcherSimulator.java
        RestaurantInfo.java
        TableSearcherSimulator.java
        TestBasicList.java
        TestBasicTable.java
        TestSearchingList.java
        TestSearchingTable.java
        TestUpdatingList.java
        TestUpdatingTable.java
  - wikipedia
    - src
      - java
        org
        apache
        lucene
        wikipedia
        analysis
        WikipediaTokenizer.java
        WikipediaTokenizerImpl.java
      - test
        org
        apache
        lucene
        wikipedia
        analysis
        WikipediaTokenizerTest.java
  - wordnet
    - src
      - java
        org
        apache
        lucene
        wordnet
        SynExpand.java
        SynLookup.java
        Syns2Index.java
      - test
        org
        apache
        lucene
        wordnet
        TestWordnet.java
  - xml-query-parser
    - src
      - demo
        java
        org
        apache
        lucene
        xmlparser
        webdemo
        FormBasedXmlQueryDemo.java
      - java
        org
        apache
        lucene
        xmlparser
        CoreParser.java
        CorePlusExtensionsParser.java
        DOMUtils.java
        FilterBuilder.java
        FilterBuilderFactory.java
        ParserException.java
        QueryBuilder.java
        QueryBuilderFactory.java
        QueryTemplateManager.java
        builders
        BooleanFilterBuilder.java
        BooleanQueryBuilder.java
        BoostingQueryBuilder.java
        BoostingTermBuilder.java
        CachedFilterBuilder.java
        ConstantScoreQueryBuilder.java
        DuplicateFilterBuilder.java
        FilteredQueryBuilder.java
        FuzzyLikeThisQueryBuilder.java
        LikeThisQueryBuilder.java
        MatchAllDocsQueryBuilder.java
        RangeFilterBuilder.java
        SpanBuilderBase.java
        SpanFirstBuilder.java
        SpanNearBuilder.java
        SpanNotBuilder.java
        SpanOrBuilder.java
        SpanOrTermsBuilder.java
        SpanQueryBuilder.java
        SpanQueryBuilderFactory.java
        SpanTermBuilder.java
        TermQueryBuilder.java
        TermsFilterBuilder.java
        TermsQueryBuilder.java
        UserInputQueryBuilder.java
      - test
        org
        apache
        lucene
        xmlparser
        TestParser.java
        TestQueryTemplateManager.java
- src

package org.apache.lucene.ant;

/**
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

import org.apache.lucene.document.Field;
import org.w3c.dom.Element;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.w3c.dom.Text;
import org.w3c.tidy.Tidy;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.StringWriter;

/**
 *  The <code>HtmlDocument</code> class creates a Lucene {@link
 *  org.apache.lucene.document.Document} from an HTML document. <P>
 *
 *  It does this by using JTidy package. It can take input input
 *  from {@link java.io.File} or {@link java.io.InputStream}.
 *
 */
public class HtmlDocument {
    private Element rawDoc;


    //-------------------------------------------------------------
    // Constructors
    //-------------------------------------------------------------

    /**
     *  Constructs an <code>HtmlDocument</code> from a {@link
     *  java.io.File}.
     *
     *@param  file             the <code>File</code> containing the
     *      HTML to parse
     *@exception  IOException  if an I/O exception occurs
     */
    public HtmlDocument(File file) throws IOException {
        Tidy tidy = new Tidy();
        tidy.setQuiet(true);
        tidy.setShowWarnings(false);
        org.w3c.dom.Document root = null;
        InputStream is = new FileInputStream(file);
        try {
          root =  tidy.parseDOM(is, null);
        } finally {
          is.close();
        }
        rawDoc = root.getDocumentElement();
    }


    /**
     *  Constructs an <code>HtmlDocument</code> from an {@link
     *  java.io.InputStream}.
     *
     *@param  is               the <code>InputStream</code>
     *      containing the HTML
     */
    public HtmlDocument(InputStream is) {
        Tidy tidy = new Tidy();
        tidy.setQuiet(true);
        tidy.setShowWarnings(false);
        org.w3c.dom.Document root = tidy.parseDOM(is, null);
        rawDoc = root.getDocumentElement();
    }


    /**
     *  Constructs an <code>HtmlDocument</code> from a
     *  {@link java.io.File}.
     *  @param  file the <code>File</code> containing the
     *   HTML to parse
     *  @param  tidyConfigFile   the <code>String</code>
     *   containing the full path to the Tidy config file
     *  @exception  IOException  if an I/O exception occurs */
    public HtmlDocument(File file, String tidyConfigFile) throws IOException {
        Tidy tidy = new Tidy();
        tidy.setConfigurationFromFile(tidyConfigFile);
        tidy.setQuiet(true);
        tidy.setShowWarnings(false);
        org.w3c.dom.Document root =
                tidy.parseDOM(new FileInputStream(file), null);
        rawDoc = root.getDocumentElement();
    }

    /**
     *  Creates a Lucene <code>Document</code> from a
     *  {@link java.io.File}.
     *  @param  file 
     *  @param  tidyConfigFile the full path to the Tidy
     *   config file
     *  @exception  IOException */
    public static org.apache.lucene.document.Document
        Document(File file, String tidyConfigFile) throws IOException {

        HtmlDocument htmlDoc = new HtmlDocument(file, tidyConfigFile);

        org.apache.lucene.document.Document luceneDoc = new org.apache.lucene.document.Document();

        luceneDoc.add(new Field("title", htmlDoc.getTitle(), Field.Store.YES, Field.Index.ANALYZED));
        luceneDoc.add(new Field("contents", htmlDoc.getBody(), Field.Store.YES, Field.Index.ANALYZED));

        String contents = null;
        BufferedReader br =
            new BufferedReader(new FileReader(file));
        StringWriter sw = new StringWriter();
        String line = br.readLine();
        while (line != null) {
            sw.write(line);
            line = br.readLine();
        }
        br.close();
        contents = sw.toString();
        sw.close();

        luceneDoc.add(new Field("rawcontents", contents, Field.Store.YES, Field.Index.NO));

        return luceneDoc;
    }

    /**
     *  Creates a Lucene <code>Document</code> from an {@link
     *  java.io.InputStream}.
     *
     *@param  is
     */
    public static org.apache.lucene.document.Document
            getDocument(InputStream is) {
        HtmlDocument htmlDoc = new HtmlDocument(is);
        org.apache.lucene.document.Document luceneDoc =
                new org.apache.lucene.document.Document();

        luceneDoc.add(new Field("title", htmlDoc.getTitle(), Field.Store.YES, Field.Index.ANALYZED));
        luceneDoc.add(new Field("contents", htmlDoc.getBody(), Field.Store.YES, Field.Index.ANALYZED));

        return luceneDoc;
    }


    //-------------------------------------------------------------
    // Public methods
    //-------------------------------------------------------------

    /**
     *  Creates a Lucene <code>Document</code> from a {@link
     *  java.io.File}.
     *
     *@param  file
     *@exception  IOException
     */
    public static org.apache.lucene.document.Document
            Document(File file) throws IOException {
        HtmlDocument htmlDoc = new HtmlDocument(file);
        org.apache.lucene.document.Document luceneDoc =
                new org.apache.lucene.document.Document();

        luceneDoc.add(new Field("title", htmlDoc.getTitle(), Field.Store.YES, Field.Index.ANALYZED));
        luceneDoc.add(new Field("contents", htmlDoc.getBody(), Field.Store.YES, Field.Index.ANALYZED));

        String contents = null;
        BufferedReader br =
                new BufferedReader(new FileReader(file));
        StringWriter sw = new StringWriter();
        String line = br.readLine();
        while (line != null) {
            sw.write(line);
            line = br.readLine();
        }
        br.close();
        contents = sw.toString();
        sw.close();

        luceneDoc.add(new Field("rawcontents", contents, Field.Store.YES, Field.Index.NO));

        return luceneDoc;
    }


    //-------------------------------------------------------------
    // Private methods
    //-------------------------------------------------------------

    /**
     *  Runs <code>HtmlDocument</code> on the files specified on
     *  the command line.
     *
     *@param  args           Command line arguments
     *@exception  Exception  Description of Exception
     */
    public static void main(String args[]) throws Exception {
//         HtmlDocument doc = new HtmlDocument(new File(args[0]));
//         System.out.println("Title = " + doc.getTitle());
//         System.out.println("Body  = " + doc.getBody());

        HtmlDocument doc =
                new HtmlDocument(new FileInputStream(new File(args[0])));
        System.out.println("Title = " + doc.getTitle());
        System.out.println("Body  = " + doc.getBody());
    }


    /**
     *  Gets the title attribute of the <code>HtmlDocument</code>
     *  object.
     *
     *@return    the title value
     */
    public String getTitle() {
        if (rawDoc == null) {
            return null;
        }

        String title = "";

        NodeList nl = rawDoc.getElementsByTagName("title");
        if (nl.getLength() > 0) {
            Element titleElement = ((Element) nl.item(0));
            Text text = (Text) titleElement.getFirstChild();
            if (text != null) {
                title = text.getData();
            }
        }
        return title;
    }


    /**
     *  Gets the bodyText attribute of the
     *  <code>HtmlDocument</code> object.
     *
     *@return    the bodyText value
     */
    public String getBody() {
        if (rawDoc == null) {
            return null;
        }

        String body = "";
        NodeList nl = rawDoc.getElementsByTagName("body");
        if (nl.getLength() > 0) {
            body = getBodyText(nl.item(0));
        }
        return body;
    }


    /**
     *  Gets the bodyText attribute of the
     *  <code>HtmlDocument</code> object.
     *
     *@param  node  a DOM Node
     *@return       The bodyText value
     */
    private String getBodyText(Node node) {
        NodeList nl = node.getChildNodes();
        StringBuffer buffer = new StringBuffer();
        for (int i = 0; i < nl.getLength(); i++) {
            Node child = nl.item(i);
            switch (child.getNodeType()) {
                case Node.ELEMENT_NODE:
                    buffer.append(getBodyText(child));
                    buffer.append(" ");
                    break;
                case Node.TEXT_NODE:
                    buffer.append(((Text) child).getData());
                    break;
            }
        }
        return buffer.toString();
    }
}