TWordDelimiterFilterFactory.java example

Explorer

Jetwick-master
- src
  - main
    - java
  - test
    - java
      - de
        jetwick
        AllIntegrationTesting.java
        JetwickTestClass.java
        bot
        JetwotTest.java
        data
        DbTestInterface.java
        JTagTest.java
        JTweetTest.java
        JUserTest.java
        es
        AbstractElasticSearchTester.java
        ElasticTagSearchTest.java
        ElasticTweetSearchTest.java
        ElasticUserSearchTest.java
        JetwickQueryTest.java
        MyAbstractSolrTestCase.java
        SavedSearchTest.java
        TokenizerFromSetTest.java
        tw
        ExtractorTest.java
        FakeUrlExtractor.java
        FriendSearchHelperTest.java
        HashtagExtractorTest.java
        StringCleanerTest.java
        TweetCollectorIntegrationTestClass.java
        TweetConsumerTest.java
        TweetDetectorTest.java
        TweetProducerViaSearchTest.java
        TweetProducerViaStreamIntegrationTestClass.java
        TweetProducerViaUsersTest.java
        TweetUserExtractorTest.java
        TwitterSearchIntegrationTestClass.java
        TwitterSearchTest.java
        UrlExtractorTest.java
        cmd
        StringFreqMapTest.java
        TermCreateCommandTest.java
        ui
        FacetPanelTest.java
        HomePageTest.java
        LoginTest.java
        MySessionTest.java
        NavigationPanelTest.java
        ResultsPanelTest.java
        SearchBoxTest.java
        WicketPagesTestClass.java
        jschart
        JSDateFilterTest.java
        util
        GenericUrlResolverTest.java
        HelperTest.java
        MaxBoundSetTest.java
        MiscIntegrationTestClass.java
        MyDateTest.java
- utils
  - solrplugin
    - src
      - main
        java
        de
        jetwick
        solrplugin
        MySimilarity.java
        TWordDelimiterFilter.java
        TWordDelimiterFilterFactory.java
        TWordDelimiterIterator.java
      - test
        java
        de
        jetwick
        solrplugin
        MySimilarityTest.java

package de.jetwick.solrplugin;

import java.io.File;
import java.io.IOException;
import java.util.List;
import java.util.Map;
import org.apache.lucene.analysis.CharArraySet;
import org.apache.lucene.analysis.TokenStream;
import org.apache.solr.analysis.BaseTokenFilterFactory;
import org.apache.solr.common.ResourceLoader;
import org.apache.solr.common.util.StrUtils;
import org.apache.solr.util.plugin.ResourceLoaderAware;

/**
 *
 * @author Peter Karich, peat_hal 'at' users 'dot' sourceforge 'dot' net
 */
public class TWordDelimiterFilterFactory extends BaseTokenFilterFactory implements ResourceLoaderAware {

    public static final String PROTECTED_TOKENS = "protected";

    public void inform(ResourceLoader loader) {
        String wordFiles = args.get(PROTECTED_TOKENS);
        if (wordFiles != null) {
            try {
                File protectedWordFiles = new File(wordFiles);
                if (protectedWordFiles.exists()) {
                    List<String> wlist = loader.getLines(wordFiles);
                    //This cast is safe in Lucene
                    protectedWords = new CharArraySet(wlist, false);//No need to go through StopFilter as before, since it just uses a List internally
                } else {
                    List<String> files = StrUtils.splitFileNames(wordFiles);
                    for (String file : files) {
                        List<String> wlist = loader.getLines(file.trim());
                        if (protectedWords == null)
                            protectedWords = new CharArraySet(wlist, false);
                        else
                            protectedWords.addAll(wlist);
                    }
                }
            } catch (IOException e) {
                throw new RuntimeException(e);
            }
        }
    }
    private CharArraySet protectedWords = null;
    int generateWordParts = 0;
    int generateNumberParts = 0;
    int catenateWords = 0;
    int catenateNumbers = 0;
    int catenateAll = 0;
    int splitOnCaseChange = 0;
    int splitOnNumerics = 0;
    int preserveOriginal = 0;
    int stemEnglishPossessive = 0;
    String handleAsChar = "";
    String handleAsDigit = "";

    @Override
    public void init(Map<String, String> args) {
        super.init(args);
        generateWordParts = getInt("generateWordParts", 1);
        generateNumberParts = getInt("generateNumberParts", 1);
        catenateWords = getInt("catenateWords", 0);
        catenateNumbers = getInt("catenateNumbers", 0);
        catenateAll = getInt("catenateAll", 0);
        splitOnCaseChange = getInt("splitOnCaseChange", 1);
        splitOnNumerics = getInt("splitOnNumerics", 1);
        preserveOriginal = getInt("preserveOriginal", 0);
        stemEnglishPossessive = getInt("stemEnglishPossessive", 1);
        handleAsChar = getArgs().get("handleAsChar");
        if (handleAsChar == null)
            handleAsChar = "";

        handleAsDigit = getArgs().get("handleAsDigit");
        if (handleAsDigit == null)
            handleAsDigit = "";
    }

    public TWordDelimiterFilter create(TokenStream input) {
        byte[] tab = new byte[256];
        for (int i = 0; i < 256; i++) {
            byte code = 0;

            if (Character.isLowerCase(i) || handleAsChar.contains(String.valueOf((char) i))) {
                code |= TWordDelimiterFilter.LOWER;
            } else if (Character.isUpperCase(i)) {
                code |= TWordDelimiterFilter.UPPER;
            } else if (Character.isDigit(i) || handleAsDigit.contains(String.valueOf((char) i))) {
                code |= TWordDelimiterFilter.DIGIT;
            }
            if (code == 0) {
                code = TWordDelimiterFilter.SUBWORD_DELIM;
            }
            tab[i] = code;
        }

        return new TWordDelimiterFilter(input, tab,
                generateWordParts, generateNumberParts,
                catenateWords, catenateNumbers, catenateAll,
                splitOnCaseChange, preserveOriginal,
                splitOnNumerics, stemEnglishPossessive, protectedWords);
    }
}