Chinese.java example

Explorer

paoding-master
- paoding-analysis
  - examples
    - net
      - paoding
        analysis
        examples
        gettingstarted
        BoldFormatter.java
        ContentReader.java
        ch1
        English.java
        ch2
        Chinese.java
        ch3
        Chinese.java
        ch4
        Chinese.java
        ch5
        Chinese.java
  - src
    - net
      - paoding
        analysis
        Constants.java
        analyzer
        PaodingAnalyzer.java
        PaodingAnalyzerBean.java
        PaodingTokenizer.java
        TokenCollector.java
        estimate
        Estimate.java
        TryPaodingAnalyzer.java
        impl
        CompiledFileDictionaries.java
        MaxWordLengthTokenCollector.java
        MostWordsModeDictionariesCompiler.java
        MostWordsTokenCollector.java
        SortingDictionariesCompiler.java
        dictionary
        BinaryDictionary.java
        Dictionary.java
        DictionaryDelegate.java
        HashBinaryDictionary.java
        Hit.java
        Word.java
        support
        detection
        Detector.java
        Difference.java
        DifferenceListener.java
        ExtensionFileFilter.java
        Node.java
        Snapshot.java
        filewords
        FileWordsReader.java
        ReadListener.java
        SimpleReadListener.java
        SimpleReadListener2.java
        exception
        PaodingAnalysisException.java
        knife
        Beef.java
        CJKKnife.java
        CharSet.java
        Collector.java
        CollectorStdoutImpl.java
        CombinatoricsKnife.java
        Dictionaries.java
        DictionariesCompiler.java
        DictionariesWare.java
        FakeKnife.java
        FileDictionaries.java
        FileDictionariesDifferenceListener.java
        Knife.java
        KnifeBox.java
        LetterKnife.java
        NumberKnife.java
        Paoding.java
        PaodingMaker.java
        SmartKnifeBox.java
- paoding-analysis-1
  - src
    - com
      - sohospace
        dictionary
        BinaryDictionary.java
        Dictionary.java
        DictionaryDelegate.java
        HashBinaryDictionary.java
        Hit.java
        Main0.java
        number
        Number.java
        NumberReader.java
        SimpleNumberReader.java
        support
        Utils.java
        filewords
        FileWordsReader.java
        ReadListener.java
        SimpleReadListener.java
        merging
        Merger.java
        lucene
        analysis
        xanalyzer
        Main0.java
        Main1.java
        TestHighLight.java
        TokenCollector.java
        XAnalyzer.java
        XFactory.java
        XQueryAnalyzer.java
        XTokenizer.java
        XWriterAnalyzer.java
        collector
        QueryTokenCollector.java
        WriterTokenCollector.java
        paoding
        Beef.java
        CharKnife.java
        CharSet.java
        Collector.java
        CollectorStdoutImpl.java
        Knife.java
        KnifeBox.java
        LetterKnife.java
        NumberKnife.java
        Paoding.java
        cjk
        CJKDictionaryFactory.java
        CJKKnife.java
        FileWordsLoader.java
        WordsLoader.java

package net.paoding.analysis.examples.gettingstarted.ch3;

import net.paoding.analysis.analyzer.PaodingAnalyzer;
import net.paoding.analysis.examples.gettingstarted.BoldFormatter;
import net.paoding.analysis.examples.gettingstarted.ContentReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.TermPositionVector;
import org.apache.lucene.index.IndexWriter.MaxFieldLength;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.Searcher;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleFragmenter;
import org.apache.lucene.search.highlight.TokenSources;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;

public class Chinese {
	private static String FIELD_NAME = "content";
	private static String QUERY = "崇武古城";

	public static void main(String[] args) throws Exception {
		if (args.length != 0) {
			QUERY = args[0];
		}
		// 将庖丁封装成符合Lucene要求的Analyzer规范
		Analyzer analyzer = new PaodingAnalyzer();
		
		//读取本类目录下的text.txt文件
		String content = ContentReader.readText(Chinese.class);

		//接下来是标准的Lucene建立索引和检索的代码
		Directory ramDir = new RAMDirectory();
		IndexWriter writer = new IndexWriter(ramDir, analyzer, MaxFieldLength.UNLIMITED);
		Document doc = new Document();
		Field fd = new Field(FIELD_NAME, content, Field.Store.YES,
				Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS);
		doc.add(fd);
		writer.addDocument(doc);
		writer.optimize();
		writer.close();

		IndexReader reader = IndexReader.open(ramDir);
		String queryString = QUERY;
		QueryParser parser = new QueryParser(Version.LUCENE_CURRENT, FIELD_NAME, analyzer);
		Query query = parser.parse(queryString);
		Searcher searcher = new IndexSearcher(ramDir);
		query = query.rewrite(reader);
		System.out.println("Searching for: " + query.toString(FIELD_NAME));
		TopDocs hits = searcher.search(query, 10);

		BoldFormatter formatter = new BoldFormatter();
		Highlighter highlighter = new Highlighter(formatter, new QueryScorer(
				query));
		highlighter.setTextFragmenter(new SimpleFragmenter(50));
		for (int i = 0; i < hits.scoreDocs.length; i++) {
			int docId = hits.scoreDocs[i].doc;
			Document hit = searcher.doc(docId);
			String text = hit.get(FIELD_NAME);
			int maxNumFragmentsRequired = 5;
			String fragmentSeparator = "...";
			TermPositionVector tpv = (TermPositionVector) reader
					.getTermFreqVector(docId, FIELD_NAME);
			TokenStream tokenStream = TokenSources.getTokenStream(tpv);
			String result = highlighter.getBestFragments(tokenStream, text,
					maxNumFragmentsRequired, fragmentSeparator);
			System.out.println("\n" + result);
		}
		reader.close();
	}

}