ChineseTokenizerFactory.java example

Explorer

zh-solr-se-master
- indexer
  - src
    - main
      - java
        zh
        solr
        se
        indexer
        IndexerBase.java
        IndexerMain.java
        chinese
        ChineseIndexer.java
        JsonProcesser.java
        db
        DbService.java
        dao
        BatchQueryManager.java
        BatchUpdateManager.java
        DaoBase.java
        DbRowListener.java
        QueryTask.java
        UpdateTask.java
        entity
        ChineseEntity.java
        Entity.java
        solrproxy
        LocalListingSolrServerFactory.java
        LocalSolrServer.java
        LocalSolrServerFactory.java
        ProxyChineseCoreContainer.java
        ProxyCoreContainer.java
        ProxyCoreContainerFactory.java
        RemoteSolrProxy.java
        SolrConstants.java
        UnsupportedCoreException.java
        util
        ConfigFactory.java
        ConfigProperties.java
        IndexerUtil.java
        IoUtil.java
        KeywordSiteFilter.java
        StringUtil.java
        SubnetClassCalculator.java
        UUIDGenerator.java
        process
        ProcessRunner.java
        StreamConsumer.java
- paoding-solr
  - src
    - main
      - java
        net
        paoding
        analysis
        Constants.java
        analyzer
        ChineseTokenizerFactory.java
        PaodingAnalyzer.java
        PaodingAnalyzerBean.java
        PaodingTokenizer.java
        SolrPaodingTokenizer.java
        TokenCollector.java
        estimate
        Estimate.java
        TryPaodingAnalyzer.java
        impl
        CompiledFileDictionaries.java
        MaxWordLengthTokenCollector.java
        MostWordsModeDictionariesCompiler.java
        MostWordsTokenCollector.java
        SortingDictionariesCompiler.java
        dictionary
        BinaryDictionary.java
        Dictionary.java
        DictionaryDelegate.java
        HashBinaryDictionary.java
        Hit.java
        Word.java
        support
        detection
        Detector.java
        Difference.java
        DifferenceListener.java
        ExtensionFileFilter.java
        Node.java
        Snapshot.java
        filewords
        FileWordsReader.java
        ReadListener.java
        SimpleReadListener.java
        SimpleReadListener2.java
        exception
        PaodingAnalysisException.java
        knife
        Beef.java
        CJKKnife.java
        CharSet.java
        Collector.java
        CollectorStdoutImpl.java
        CombinatoricsKnife.java
        Dictionaries.java
        DictionariesCompiler.java
        DictionariesWare.java
        FakeKnife.java
        FileDictionaries.java
        FileDictionariesDifferenceListener.java
        Knife.java
        KnifeBox.java
        LetterKnife.java
        NumberKnife.java
        Paoding.java
        PaodingMaker.java
        SmartKnifeBox.java
- searcher
  - src
    - main
      - java
        zh
        solr
        se
        searcher
        DefaultSearchService.java
        MainDispatchFilter.java
        SearchServiceFactory.java
        chinese
        ChineseSearchService.java
        relevance
        DocSliceResult.java
        DocumentListResult.java
        ScoredSolrDoc.java
        SearchResult.java
        SearchUtil.java
        solr
        SolrProxy.java
        SolrUtil.java
        util
        ConfigFactory.java
        ConfigProperties.java
        Inflector.java
        StringUtil.java
        TextFileLoader.java
        TextLineListener.java
        TimeUtil.java

package net.paoding.analysis.analyzer;

import java.io.Reader;
import java.util.Map;

import net.paoding.analysis.analyzer.TokenCollector;
import net.paoding.analysis.analyzer.impl.MaxWordLengthTokenCollector;
import net.paoding.analysis.analyzer.impl.MostWordsTokenCollector;
import net.paoding.analysis.knife.PaodingMaker;

import org.apache.lucene.analysis.Tokenizer;
import org.apache.solr.analysis.BaseTokenizerFactory;

/**
 * 中文切词 对庖丁切词的封装
 */
public class ChineseTokenizerFactory extends BaseTokenizerFactory {
	/**
	 * 最多切分 默认模式
	 */
	public static final String MOST_WORDS_MODE = "most-words";
	/**
	 * 按最大切分
	 */
	public static final String MAX_WORD_LENGTH_MODE = "max-word-length";
	private String mode = null;

	public void setMode(String mode) {
		if (mode == null || MOST_WORDS_MODE.equalsIgnoreCase(mode)
				|| "default".equalsIgnoreCase(mode)) {
			this.mode = MOST_WORDS_MODE;
		} else if (MAX_WORD_LENGTH_MODE.equalsIgnoreCase(mode)) {
			this.mode = MAX_WORD_LENGTH_MODE;
		} else {
			throw new IllegalArgumentException("不合法的分析器Mode参数设置:" + mode);
		}
	}

	@Override
	public void init(Map<String, String> args) {
		super.init(args);
		setMode((String) args.get("mode"));
	}

	private TokenCollector createTokenCollector() {
		if (MOST_WORDS_MODE.equals(mode))
			return new MostWordsTokenCollector();
		if (MAX_WORD_LENGTH_MODE.equals(mode))
			return new MaxWordLengthTokenCollector();
		throw new Error("never happened");
	}

	@Override
	public Tokenizer create(Reader input) {
		return new SolrPaodingTokenizer(input, PaodingMaker.make(),
				createTokenCollector());
	}
}