Knife.java example

Explorer

zh-solr-se-master
- indexer
  - src
    - main
      - java
        zh
        solr
        se
        indexer
        IndexerBase.java
        IndexerMain.java
        chinese
        ChineseIndexer.java
        JsonProcesser.java
        db
        DbService.java
        dao
        BatchQueryManager.java
        BatchUpdateManager.java
        DaoBase.java
        DbRowListener.java
        QueryTask.java
        UpdateTask.java
        entity
        ChineseEntity.java
        Entity.java
        solrproxy
        LocalListingSolrServerFactory.java
        LocalSolrServer.java
        LocalSolrServerFactory.java
        ProxyChineseCoreContainer.java
        ProxyCoreContainer.java
        ProxyCoreContainerFactory.java
        RemoteSolrProxy.java
        SolrConstants.java
        UnsupportedCoreException.java
        util
        ConfigFactory.java
        ConfigProperties.java
        IndexerUtil.java
        IoUtil.java
        KeywordSiteFilter.java
        StringUtil.java
        SubnetClassCalculator.java
        UUIDGenerator.java
        process
        ProcessRunner.java
        StreamConsumer.java
- paoding-solr
  - src
    - main
      - java
        net
        paoding
        analysis
        Constants.java
        analyzer
        ChineseTokenizerFactory.java
        PaodingAnalyzer.java
        PaodingAnalyzerBean.java
        PaodingTokenizer.java
        SolrPaodingTokenizer.java
        TokenCollector.java
        estimate
        Estimate.java
        TryPaodingAnalyzer.java
        impl
        CompiledFileDictionaries.java
        MaxWordLengthTokenCollector.java
        MostWordsModeDictionariesCompiler.java
        MostWordsTokenCollector.java
        SortingDictionariesCompiler.java
        dictionary
        BinaryDictionary.java
        Dictionary.java
        DictionaryDelegate.java
        HashBinaryDictionary.java
        Hit.java
        Word.java
        support
        detection
        Detector.java
        Difference.java
        DifferenceListener.java
        ExtensionFileFilter.java
        Node.java
        Snapshot.java
        filewords
        FileWordsReader.java
        ReadListener.java
        SimpleReadListener.java
        SimpleReadListener2.java
        exception
        PaodingAnalysisException.java
        knife
        Beef.java
        CJKKnife.java
        CharSet.java
        Collector.java
        CollectorStdoutImpl.java
        CombinatoricsKnife.java
        Dictionaries.java
        DictionariesCompiler.java
        DictionariesWare.java
        FakeKnife.java
        FileDictionaries.java
        FileDictionariesDifferenceListener.java
        Knife.java
        KnifeBox.java
        LetterKnife.java
        NumberKnife.java
        Paoding.java
        PaodingMaker.java
        SmartKnifeBox.java
- searcher
  - src
    - main
      - java
        zh
        solr
        se
        searcher
        DefaultSearchService.java
        MainDispatchFilter.java
        SearchServiceFactory.java
        chinese
        ChineseSearchService.java
        relevance
        DocSliceResult.java
        DocumentListResult.java
        ScoredSolrDoc.java
        SearchResult.java
        SearchUtil.java
        solr
        SolrProxy.java
        SolrUtil.java
        util
        ConfigFactory.java
        ConfigProperties.java
        Inflector.java
        StringUtil.java
        TextFileLoader.java
        TextLineListener.java
        TimeUtil.java

/**
 * Copyright 2007 The Apache Software Foundation
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package net.paoding.analysis.knife;

/**
 * Knife规定如何分解字符串成词语，并将分解成的词语告知{@link Collector}接口。
 * <p>
 * 
 * @author Zhiliang Wang [qieqie.wang@gmail.com]
 * 
 * @see Collector
 * @see Paoding
 * @see CJKKnife
 * @see CombinatoricsKnife
 * @see NumberKnife
 * @see LetterKnife
 * 
 * @since 1.0
 * 
 */
public interface Knife {

	/**
	 * 表征 {@link #assignable(Beef beef, int offset, int indec)}对index位置字符的性质规定。
	 * ASSIGNED性质的字符表示该字符可以被Knife接受进行分词。
	 * <p>
	 * {@link KnifeBox}据此将一段由这种性质字符开始的内容(由beef和offset封装)交给Knife分解。
	 * <p>
	 * 同样的一段内容的一个位置的字符，对不同的Knife来说，往往具有不同的性质结果。
	 * <P>
	 * 
	 * @see KnifeBox#dissect(Collector, Beef, int)
	 */
	int ASSIGNED = 1;

	/**
	 * 表征 {@link #assignable(Beef beef, int offset, int indec)}对index位置字符的性质规定。
	 * POINT性质的字符表示如果给定分解的内容之前存在ASSIGNED性质的字符时，该字符可以被Knife接受进行分词。
	 * <P>
	 * {@link KnifeBox}不关心给定的文本内容是否包含POINT性质的字符。<br>
	 * 这种性质的字符的最大关心者是{@link Knife}本身。
	 * 一般情况下，如果存在POINT性质的字符，下一个合适的Knife将从第一个这样性质的字符开始分解内容<br>
	 * (这仅是一般的情况，具体是由{@link #dissect(Collector, Beef, int)}来确定)。
	 * <p>
	 * 同样的一段内容的一个位置的字符，对不同的Knife来说，往往具有不同的性质结果。
	 * <P>
	 */
	int POINT = 0;

	/**
	 * 表征 {@link #assignable(Beef beef, int offset, int indec)}对index位置字符的性质规定。
	 * LIMIT性质的字符表示给定的字符不属于此Knife的分解范畴。本Knife分解应该到此为止。 <br>
	 * 一般情况下，如果不存在POINT性质的字符，下一个合适的Knife将从这样性质的字符开始分解内容<br>
	 * (这仅是一般的情况，具体是由{@link #dissect(Collector, Beef, int)}来确定)。
	 * <p>
	 * 同样的一段内容的一个位置的字符，对不同的Knife来说，往往具有不同的性质结果。
	 * <P>
	 */
	int LIMIT = -1;

	/**
	 * 返回beef的index位置字符的性质，{@link KnifeBox}据此决定将一段文本内容“交给”一个合适的Knife切词
	 * 
	 * @param beef
	 *            要被分词的字符串
	 * @param offset
	 *            Knife开始或有可能开始切词的始发位置。
	 * @param index
	 *            被判断的字符的位置，本方法返回的即时该位置字符的性质。index>=offset。<br>
	 *            当{@link KnifeBox}根据字符的性质(是否为{@link #ASSIGNED})选择Knife分解时，index=offset。
	 * @return index位置的字符在本Knife中的性质规定 <br>
	 *         当offset==index时，仅当返回ASSIGNED时，该Knife才有机会被{@link KnifeBox}分配接收文本内容进行分词<br>
	 *         (即才有机会调用dissect方法)
	 * @see #LIMIT
	 * @see #ASSIGNED
	 * @see #POINT
	 */
	public int assignable(Beef beef, int offset, int index);

	/**
	 * 分解词语，并将分解成的词语相关信息告知{@link Collector}接口。
	 * <p>
	 * 分解从beef的offset位置开始，直至可能的结束的位置，结束时返回具有特定意义的一个非0数字。<br>
	 * 
	 * @param collector
	 *            当分解到词语时，collector将被通知接收该词语
	 * @param beef
	 *            待分解的字符串内容，这个字符串可能是所要分解的全部字符串的一部分(比如文章中的某一部分)，当beef的最后一个字符为'\0'时，表示此次分解是文章最后一段。
	 * @param offset
	 *            此次分解从beef的offset位置开始，即本此分解只需从beef.charAt(offset)开始
	 * @return 非0的整数，即正整数或负整数。<br>
	 *         正数时：表示此次分解到该结束位置(不包括该边界)，即此次成功分解了从offset到该位置的文本流。<br>
	 *         特别地，当其>=beef.lenght()表示已经把beef所有的词语分解完毕<br>
	 *         如果，当其==offset时，表示{@link KnifeBox}应该继续遍历还未遍历的Knife，确定是否有其他Knife接收分解offset位置开始的文本内容<br>
	 *         <p>
	 *         负数时：该负数的绝对值必须>=offset。这个绝对值表示此次成功分解了从offset到该绝对值的文本流，剩下的字符，该knife已经不能正确解析。(一般此时应该重新传入新的beef对象解析)
	 *         <p>
	 *         比如，有内容为"hello yang!"的文章，先读入8个字符"hello ya"，<br>
	 *         此时分解后应该返回-5，表示正确解析到5这个位置，即"hello"，但必须读入新的字符然后再继续解析。
	 *         此时beef构造者就读入剩下的字符"ng!"并与前次剩下的" ya"<br>
	 *         构成串" yang!"，这样才能继续解析，从而解析出"yang"!
	 * 
	 * 
	 */
	public int dissect(Collector collector, Beef beef, int offset);
}