XMLDocumentHandlerTxt.java example

Explorer

ClusterBasedRelevanceFeedback-master
- src
  - org
    - apache
      - lucene
        ClusterBasedPsuedoRelevanceFeedback
        ClusterPsuedoRelevanceFeedbackDriver.java
        DocumentCluster.java
        LucenePackage.java
        analysis
        Analyzer.java
        CachingTokenFilter.java
        CharArraySet.java
        CharReader.java
        CharStream.java
        CharTokenizer.java
        LetterTokenizer.java
        LowerCaseFilter.java
        LowerCaseTokenizer.java
        NumericTokenStream.java
        SimpleAnalyzer.java
        StopAnalyzer.java
        StopFilter.java
        TeeSinkTokenFilter.java
        Token.java
        TokenFilter.java
        TokenStream.java
        Tokenizer.java
        WordlistLoader.java
        standard
        StandardAnalyzer.java
        StandardFilter.java
        StandardTokenizer.java
        StandardTokenizerImpl.java
        tokenattributes
        CharTermAttribute.java
        CharTermAttributeImpl.java
        FlagsAttribute.java
        FlagsAttributeImpl.java
        KeywordAttribute.java
        KeywordAttributeImpl.java
        OffsetAttribute.java
        OffsetAttributeImpl.java
        PayloadAttribute.java
        PayloadAttributeImpl.java
        PositionIncrementAttribute.java
        PositionIncrementAttributeImpl.java
        TermToBytesRefAttribute.java
        TypeAttribute.java
        TypeAttributeImpl.java
        benchmark
        Constants.java
        quality
        Judge.java
        LanguageQualityBenchmark.java
        QualityBenchmark.java
        QualityQuery.java
        QualityQueryParser.java
        QualityStats.java
        trec
        QueryDriver.java
        Trec1MQReader.java
        TrecJudge.java
        TrecTopicsReader.java
        utils
        DocNameExtractor.java
        QualityQueriesFinder.java
        SimpleQQParser.java
        SubmissionReport.java
        stats
        MemUsage.java
        QueryData.java
        TestData.java
        TestRunData.java
        TimeData.java
        demo
        DeleteFiles.java
        FileDocument.java
        HTMLDocument.java
        IndexFiles.java
        LanguageModelBenchmark.java
        SearchFiles.java
        html
        Entities.java
        HTMLParser.java
        HTMLParserConstants.java
        HTMLParserTokenManager.java
        ParseException.java
        ParserThread.java
        SimpleCharStream.java
        Tags.java
        Test.java
        Token.java
        TokenMgrError.java
        document
        AbstractField.java
        CompressionTools.java
        DateTools.java
        Document.java
        Field.java
        FieldSelector.java
        FieldSelectorResult.java
        Fieldable.java
        LoadFirstFieldSelector.java
        MapFieldSelector.java
        NumericField.java
        SetBasedFieldSelector.java
        index
        BufferedDeletes.java
        BufferedDeletesStream.java
        ByteSliceReader.java
        ByteSliceWriter.java
        CheckIndex.java
        CompoundFileReader.java
        CompoundFileWriter.java
        ConcurrentMergeScheduler.java
        CorruptIndexException.java
        DirectoryReader.java
        DocConsumer.java
        DocConsumerPerThread.java
        DocFieldConsumer.java
        DocFieldConsumerPerField.java
        DocFieldConsumerPerThread.java
        DocFieldProcessor.java
        DocFieldProcessorPerField.java
        DocFieldProcessorPerThread.java
        DocInverter.java
        DocInverterPerField.java
        DocInverterPerThread.java
        DocsAndPositionsEnum.java
        DocsEnum.java
        DocumentsWriter.java
        DocumentsWriterThreadState.java
        FieldInfo.java
        FieldInfos.java
        FieldInvertState.java
        FieldReaderException.java
        FieldSortedTermVectorMapper.java
        Fields.java
        FieldsEnum.java
        FieldsReader.java
        FieldsWriter.java
        FilterIndexReader.java
        FreqProxFieldMergeState.java
        FreqProxTermsWriter.java
        FreqProxTermsWriterPerField.java
        FreqProxTermsWriterPerThread.java
        FrozenBufferedDeletes.java
        IndexCommit.java
        IndexDeletionPolicy.java
        IndexFileDeleter.java
        IndexFileNameFilter.java
        IndexFileNames.java
        IndexFormatTooNewException.java
        IndexFormatTooOldException.java
        IndexNotFoundException.java
        IndexReader.java
        IndexWriter.java
        IndexWriterConfig.java
        IntBlockPool.java
        InvertedDocConsumer.java
        InvertedDocConsumerPerField.java
        InvertedDocConsumerPerThread.java
        InvertedDocEndConsumer.java
        InvertedDocEndConsumerPerField.java
        InvertedDocEndConsumerPerThread.java
        KeepOnlyLastCommitDeletionPolicy.java
        LogByteSizeMergePolicy.java
        LogDocMergePolicy.java
        LogMergePolicy.java
        MergeDocIDRemapper.java
        MergePolicy.java
        MergeScheduler.java
        MultiDocsAndPositionsEnum.java
        MultiDocsEnum.java
        MultiFields.java
        MultiFieldsEnum.java
        MultiNorms.java
        MultiReader.java
        MultiTerms.java
        MultiTermsEnum.java
        NoDeletionPolicy.java
        NoMergePolicy.java
        NoMergeScheduler.java
        NormsWriter.java
        NormsWriterPerField.java
        NormsWriterPerThread.java
        OrdTermState.java
        ParallelPostingsArray.java
        ParallelReader.java
        Payload.java
        PayloadProcessorProvider.java
        PerFieldCodecWrapper.java
        PersistentSnapshotDeletionPolicy.java
        PositionBasedTermVectorMapper.java
        ReusableStringReader.java
        SegmentCodecs.java
        SegmentInfo.java
        SegmentInfos.java
        SegmentMerger.java
        SegmentReadState.java
        SegmentReader.java
        SegmentTermPositionVector.java
        SegmentTermVector.java
        SegmentWriteState.java
        SerialMergeScheduler.java
        SlowMultiReaderWrapper.java
        SnapshotDeletionPolicy.java
        SortedTermVectorMapper.java
        StaleReaderException.java
        StoredFieldsWriter.java
        StoredFieldsWriterPerThread.java
        Term.java
        TermFreqVector.java
        TermPositionVector.java
        TermState.java
        TermVectorEntry.java
        TermVectorEntryFreqSortedComparator.java
        TermVectorMapper.java
        TermVectorOffsetInfo.java
        TermVectorsReader.java
        TermVectorsTermsWriter.java
        TermVectorsTermsWriterPerField.java
        TermVectorsTermsWriterPerThread.java
        TermVectorsWriter.java
        Terms.java
        TermsEnum.java
        TermsHash.java
        TermsHashConsumer.java
        TermsHashConsumerPerField.java
        TermsHashConsumerPerThread.java
        TermsHashPerField.java
        TermsHashPerThread.java
        codecs
        BlockTermState.java
        BlockTermsReader.java
        BlockTermsWriter.java
        Codec.java
        CodecProvider.java
        CoreCodecProvider.java
        DefaultSegmentInfosReader.java
        DefaultSegmentInfosWriter.java
        FieldsConsumer.java
        FieldsProducer.java
        FixedGapTermsIndexReader.java
        FixedGapTermsIndexWriter.java
        MappingMultiDocsAndPositionsEnum.java
        MappingMultiDocsEnum.java
        MergeState.java
        MultiLevelSkipListReader.java
        MultiLevelSkipListWriter.java
        PostingsConsumer.java
        PostingsReaderBase.java
        PostingsWriterBase.java
        SegmentInfosReader.java
        SegmentInfosWriter.java
        TermStats.java
        TermsConsumer.java
        TermsIndexReaderBase.java
        TermsIndexWriterBase.java
        VariableGapTermsIndexReader.java
        VariableGapTermsIndexWriter.java
        intblock
        FixedIntBlockIndexInput.java
        FixedIntBlockIndexOutput.java
        VariableIntBlockIndexInput.java
        VariableIntBlockIndexOutput.java
        preflex
        PreFlexCodec.java
        PreFlexFields.java
        SegmentTermDocs.java
        SegmentTermEnum.java
        SegmentTermPositions.java
        TermBuffer.java
        TermInfo.java
        TermInfosReader.java
        pulsing
        PulsingCodec.java
        PulsingPostingsReaderImpl.java
        PulsingPostingsWriterImpl.java
        sep
        IntIndexInput.java
        IntIndexOutput.java
        IntStreamFactory.java
        SepPostingsReaderImpl.java
        SepPostingsWriterImpl.java
        SepSkipListReader.java
        SepSkipListWriter.java
        simpletext
        SimpleTextCodec.java
        SimpleTextFieldsReader.java
        SimpleTextFieldsWriter.java
        standard
        DefaultSkipListReader.java
        DefaultSkipListWriter.java
        StandardCodec.java
        StandardPostingsReader.java
        StandardPostingsWriter.java
        messages
        Message.java
        MessageImpl.java
        NLS.java
        NLSException.java
        queryParser
        CharStream.java
        FastCharStream.java
        MultiFieldQueryParser.java
        ParseException.java
        QueryParser.java
        QueryParserBase.java
        QueryParserConstants.java
        QueryParserTokenManager.java
        Token.java
        TokenMgrError.java
        search
        AutomatonQuery.java
        AutomatonTermsEnum.java
        BooleanClause.java
        BooleanQuery.java
        BooleanScorer.java
        BooleanScorer2.java
        BoostAttribute.java
        BoostAttributeImpl.java
        CachingSpanFilter.java
        CachingWrapperFilter.java
        Collector.java
        ComplexExplanation.java
        ConjunctionScorer.java
        ConstantScoreAutoRewrite.java
        ConstantScoreQuery.java
        DefaultSimilarity.java
        DefaultSimilarityProvider.java
        DisjunctionMaxQuery.java
        DisjunctionMaxScorer.java
        DisjunctionSumScorer.java
        DocIdSet.java
        DocIdSetIterator.java
        ExactPhraseScorer.java
        Explanation.java
        FieldCache.java
        FieldCacheImpl.java
        FieldCacheRangeFilter.java
        FieldCacheTermsFilter.java
        FieldComparator.java
        FieldComparatorSource.java
        FieldDoc.java
        FieldValueHitQueue.java
        Filter.java
        FilteredDocIdSet.java
        FilteredDocIdSetIterator.java
        FilteredQuery.java
        FilteredTermsEnum.java
        FuzzyQuery.java
        FuzzyTermsEnum.java
        HitQueue.java
        IndexSearcher.java
        LanguageModelQuery.java
        LanguageModelScorer.java
        LanguageModelSimilarity.java
        LanguageModelSimilarityProvider.java
        MatchAllDocsQuery.java
        MaxNonCompetitiveBoostAttribute.java
        MaxNonCompetitiveBoostAttributeImpl.java
        MultiCollector.java
        MultiPhraseQuery.java
        MultiTermQuery.java
        MultiTermQueryWrapperFilter.java
        NumericRangeFilter.java
        NumericRangeQuery.java
        PhrasePositions.java
        PhraseQuery.java
        PhraseQueue.java
        PhraseScorer.java
        PositiveScoresOnlyCollector.java
        PrefixFilter.java
        PrefixQuery.java
        PrefixTermsEnum.java
        Query.java
        QueryTermVector.java
        QueryWrapperFilter.java
        RegexpQuery.java
        ReqExclScorer.java
        ReqOptSumScorer.java
        ScoreCachingWrappingScorer.java
        ScoreDoc.java
        Scorer.java
        ScoringRewrite.java
        Similarity.java
        SimilarityProvider.java
        SingleTermsEnum.java
        SloppyPhraseScorer.java
        Sort.java
        SortField.java
        SpanFilter.java
        SpanFilterResult.java
        SpanQueryFilter.java
        TermCollectingRewrite.java
        TermQuery.java
        TermRangeFilter.java
        TermRangeQuery.java
        TermRangeTermsEnum.java
        TermScorer.java
        TimeLimitingCollector.java
        TopDocs.java
        TopDocsCollector.java
        TopFieldCollector.java
        TopFieldDocs.java
        TopScoreDocCollector.java
        TopTermsRewrite.java
        TotalHitCountCollector.java
        Weight.java
        WildcardQuery.java
        cache
        ByteValuesCreator.java
        CachedArray.java
        CachedArrayCreator.java
        DocTermsCreator.java
        DocTermsIndexCreator.java
        DoubleValuesCreator.java
        EntryCreator.java
        EntryCreatorWithOptions.java
        EntryKey.java
        FloatValuesCreator.java
        IntValuesCreator.java
        LongValuesCreator.java
        ShortValuesCreator.java
        SimpleEntryKey.java
        function
        ByteFieldSource.java
        CustomScoreProvider.java
        CustomScoreQuery.java
        DocValues.java
        FieldCacheSource.java
        FieldScoreQuery.java
        FloatFieldSource.java
        IntFieldSource.java
        MultiValueSource.java
        OrdFieldSource.java
        ReverseOrdFieldSource.java
        ShortFieldSource.java
        ValueSource.java
        ValueSourceQuery.java
        payloads
        AveragePayloadFunction.java
        MaxPayloadFunction.java
        MinPayloadFunction.java
        PayloadFunction.java
        PayloadNearQuery.java
        PayloadSpanUtil.java
        PayloadTermQuery.java
        spans
        FieldMaskingSpanQuery.java
        NearSpansOrdered.java
        NearSpansUnordered.java
        SpanFirstQuery.java
        SpanMultiTermQueryWrapper.java
        SpanNearPayloadCheckQuery.java
        SpanNearQuery.java
        SpanNotQuery.java
        SpanOrQuery.java
        SpanPayloadCheckQuery.java
        SpanPositionCheckQuery.java
        SpanPositionRangeQuery.java
        SpanQuery.java
        SpanScorer.java
        SpanTermQuery.java
        SpanWeight.java
        Spans.java
        TermSpans.java
        store
        AlreadyClosedException.java
        BufferedIndexInput.java
        BufferedIndexOutput.java
        ByteArrayDataInput.java
        ChecksumIndexInput.java
        ChecksumIndexOutput.java
        DataInput.java
        DataOutput.java
        Directory.java
        FSDirectory.java
        FSLockFactory.java
        FileSwitchDirectory.java
        IndexInput.java
        IndexOutput.java
        Lock.java
        LockFactory.java
        LockObtainFailedException.java
        LockReleaseFailedException.java
        LockStressTest.java
        LockVerifyServer.java
        MMapDirectory.java
        NIOFSDirectory.java
        NativeFSLockFactory.java
        NoLockFactory.java
        NoSuchDirectoryException.java
        RAMDirectory.java
        RAMFile.java
        RAMInputStream.java
        RAMOutputStream.java
        SimpleFSDirectory.java
        SimpleFSLockFactory.java
        SingleInstanceLockFactory.java
        VerifyingLockFactory.java
        util
        ArrayUtil.java
        Attribute.java
        AttributeImpl.java
        AttributeReflector.java
        AttributeSource.java
        AverageGuessMemoryModel.java
        BitUtil.java
        BitVector.java
        Bits.java
        BitsSlice.java
        ByteBlockPool.java
        BytesRef.java
        BytesRefHash.java
        CharacterUtils.java
        CloseableThreadLocal.java
        CodecUtil.java
        CollectionUtil.java
        Constants.java
        DocIdBitSet.java
        DoubleBarrelLRUCache.java
        DummyConcurrentLock.java
        English.java
        FieldCacheSanityChecker.java
        IOUtils.java
        IndexableBinaryStringTools.java
        IntsRef.java
        MapBackedSet.java
        MapOfSets.java
        MemoryModel.java
        MultiBits.java
        NamedThreadFactory.java
        NumericUtils.java
        OpenBitSet.java
        OpenBitSetDISI.java
        OpenBitSetIterator.java
        PagedBytes.java
        PerReaderTermState.java
        PriorityQueue.java
        RamUsageEstimator.java
        ReaderUtil.java
        RecyclingByteBlockAllocator.java
        ScorerDocQueue.java
        SetOnce.java
        SimpleStringInterner.java
        SmallFloat.java
        SortedVIntList.java
        SorterTemplate.java
        StringHelper.java
        StringInterner.java
        ThreadInterruptedException.java
        ToStringUtils.java
        UnicodeUtil.java
        Version.java
        VirtualMethod.java
        automaton
        Automaton.java
        AutomatonProvider.java
        BasicAutomata.java
        BasicOperations.java
        ByteRunAutomaton.java
        CharacterRunAutomaton.java
        Lev1ParametricDescription.java
        Lev2ParametricDescription.java
        LevenshteinAutomata.java
        MinimizationOperations.java
        RegExp.java
        RunAutomaton.java
        SortedIntSet.java
        SpecialOperations.java
        State.java
        StatePair.java
        Transition.java
        UTF32ToUTF8.java
        fst
        Builder.java
        ByteSequenceOutputs.java
        BytesRefFSTEnum.java
        FST.java
        FSTEnum.java
        IntSequenceOutputs.java
        IntsRefFSTEnum.java
        NoOutputs.java
        NodeHash.java
        Outputs.java
        PairOutputs.java
        PositiveIntOutputs.java
        Util.java
        packed
        Direct16.java
        Direct32.java
        Direct64.java
        Direct8.java
        GrowableWriter.java
        Packed32.java
        Packed64.java
        PackedInts.java
        PackedReaderIterator.java
        PackedWriter.java
      - lucenesandbox
        xmlindexingdemo
        XMLDocumentHandlerTxt.java

/**
 * Treats documents as text.  Parses out only DOCNO.
 * XML Tags are discarded
 */

package org.apache.lucenesandbox.xmlindexingdemo;


import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;

import java.io.*;
import java.util.*;


public class XMLDocumentHandlerTxt
{    
    private Document doc;
    private ArrayList docs;
    
    /**
     * @param xmlFile
     * @param docTag - Tag that indicates document
     */
    public XMLDocumentHandlerTxt(File xmlFile) throws IOException
    {
        docs = new ArrayList();
        parse(xmlFile);
    }
    
    public void parse( File file) throws IOException
    {
        BufferedReader reader = new BufferedReader( new FileReader( file ) );
        StringBuffer strb = new StringBuffer(100);
	String docline = "";	
        boolean intext = false;
	boolean indocline = false;

        while ( reader.ready() )
        {
            String line = reader.readLine();
            if ( line.indexOf( "</DOCNO>" ) != -1 ) {
		docline += line;
		doc = createDoc( docline );
		docs.add( doc );
		docline = "";
		indocline = false;
	    } else if ( line.indexOf( "<DOCNO>" ) != -1 ) {
                docline += line;
                indocline = true;
	    } else if (indocline) {
		docline += line.replaceAll("[!]", "");
	    } else if ( line.toUpperCase().indexOf("<TEXT>") != -1 ) {
		intext = true;
	    } else if (line.toUpperCase().indexOf("</TEXT>") != -1 ) {
		intext = false;
	    }
            // Add contents to a doc
            else if ( doc != null && intext) {
                // Strip out xml tags
                String txt = stripTagsOut( line );
		
		strb.append( " " + txt + " " );
            }

            // If we hit the end of doc then add text to it
            if ( line.indexOf( "</DOC>" ) != -1 )
            {
                doc.add(new Field("text", strb.toString(), Field.Store.NO, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS));
                strb = new StringBuffer(100);
            }
        }
        reader.close();
    }
    
    public String stripTagsOut( String str)
    {
        boolean ignore = false;
        StringBuffer strb = new StringBuffer();
        for ( int i = 0; i < str.length(); i++ )
        {
            char ch = str.charAt( i );
            if ( ch == '<' )
            {
                ignore = true;
            }
            else if ( ch == '>' )
            {
                ignore = false;
            }
            else if ( !ignore )
            {
                strb.append( ch );
            }
        }
        // Strip out some html tags - ␣ &hyph; & §        
        String strP = strb.toString();
        strP = strP.replaceAll( "␣|&hyph;|&|§|•", " " );        
        
        return strP;
    }
    
    /**
     * Creates empty doc from a str of form:
     * <DOCNO> FBIS3-1 </DOCNO>
     */
    public Document createDoc( String str )
    {
        // DocNo is a second token
        StringTokenizer tknzr = new StringTokenizer( str, " \t\n\r\f<>" );
        tknzr.nextToken();
        String docNo = tknzr.nextToken().trim();
        Document doc = new Document();
        //noc.add( Field.Text( "DOCNO", docNo ) );
        doc.add(new Field("DOCNO", docNo, Field.Store.YES, Field.Index.NOT_ANALYZED));
        return doc;
    }
    
    
    public ArrayList getDocuments()
    {
        return docs;
    }
}