TermSplitTokenizer.java example

Explorer

eclipse-instasearch-master
- instasearch
  - src
    - it
      - unibz
        instasearch
        InstaSearch.java
        InstaSearchPlugin.java
        InstaSearchStartup.java
        actions
        BuildIndexActionDelegate.java
        CheckUpdatesActionDelegate.java
        CollapseAllActionDelegate.java
        DeleteIndexActionDelegate.java
        ExpandAllActionDelegate.java
        IncrementalSearchActionDelegate.java
        InstaSearchActionDelegate.java
        OpenSearchDialog.java
        PreferencesAction.java
        ShowExceptionAction.java
        ShowInstaSearchAction.java
        VisitHomePageActionDelegate.java
        indexing
        Field.java
        FileAnalyzer.java
        LengthNormSimilarity.java
        QueryAnalyzer.java
        ResourceCollector.java
        SearchQuery.java
        SearchResult.java
        SearchResultDoc.java
        Searcher.java
        StorageIndexer.java
        WorkspaceIndexer.java
        WorkspaceIndexerJDT.java
        querying
        CSVExpander.java
        CurrentProjectSetter.java
        FieldAliasConverter.java
        FileNameSearcher.java
        FilterSetter.java
        FolderSearcher.java
        LastTermQueryPrefixer.java
        LowercaseConverter.java
        ModifiedTimeConverter.java
        PhraseSearcher.java
        QueryFuzzifier.java
        QueryVisitor.java
        UppercaseNameExpander.java
        VisitableQuery.java
        WorkingSetExpander.java
        tokenizers
        CamelCaseTokenizer.java
        DotSplitTokenizer.java
        TermSplitTokenizer.java
        WordSplitTokenizer.java
        standard
        CharStream.java
        FastCharStream.java
        ParseException.java
        StandardTokenizer.java
        StandardTokenizerConstants.java
        StandardTokenizerTokenManager.java
        Token.java
        TokenMgrError.java
        jobs
        CheckUpdatesJob.java
        DeleteIndexJob.java
        IndexUpdateJob.java
        IndexingJob.java
        UpdatePluginJob.java
        prefs
        InstaSearchPreferencePage.java
        PreferenceConstants.java
        PreferenceInitializer.java
        ui
        DropdownMenuProvider.java
        InstaSearchPage.java
        InstaSearchUI.java
        InstaSearchView.java
        MatchHighlightJob.java
        ReportErrorDialog.java
        ResultContentProvider.java
        ResultLabelProvider.java
        SearchContentProposalProvider.java
        SearchJob.java
        SearchViewControl.java
        StyledTextContentAdapter.java
  - test
    - it
      - unibz
        instasearch
        indexing
        SearcherTest.java
        TestSearcher.java
        TestStorage.java

/*
 * Copyright (c) 2009 Andrejs Jermakovics.
 * 
 * All rights reserved. This program and the accompanying materials
 * are made available under the terms of the Eclipse Public License v1.0
 * which accompanies this distribution, and is available at
 * http://www.eclipse.org/legal/epl-v10.html
 *
 * Contributors:
 *     Andrejs Jermakovics - initial implementation
 */
package it.unibz.instasearch.indexing.tokenizers;

import java.io.IOException;
import java.util.LinkedList;

import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
import org.apache.lucene.analysis.tokenattributes.TermAttribute;

/**
 * Splits terms. Returns the original term and its split parts 
 */
public abstract class TermSplitTokenizer extends TokenFilter {

	private LinkedList<Token> tokens = new LinkedList<Token>();
	
	private TermAttribute termAtt;
	private OffsetAttribute offsetAtt;
	private PositionIncrementAttribute posAtt;

	public TermSplitTokenizer(TokenStream in) {
	    super(in);
	    
	    assert( in.hasAttribute(TermAttribute.class) );
	    assert( in.hasAttribute(OffsetAttribute.class) );
	    assert( in.hasAttribute(PositionIncrementAttribute.class) );
	    
	    termAtt = (TermAttribute) addAttribute(TermAttribute.class);
		offsetAtt = (OffsetAttribute) addAttribute(OffsetAttribute.class);
		posAtt = (PositionIncrementAttribute) addAttribute(PositionIncrementAttribute.class);
	}
	
	@Override
	public boolean incrementToken() throws IOException
	{
		if( !tokens.isEmpty() )
		{
			applyToken(tokens.removeFirst());
		}
		else if( input.incrementToken() )
		{
			splitIntoTokens();
			
			if( !tokens.isEmpty() )
			{
				if( ! returnOriginalTerm() )
					applyToken( tokens.removeFirst() );
			}
		}
		else
		{
			return false; // does not have any more tokens
		}
		
		return true;
	}

	private void splitIntoTokens()
	{
		String term = termAtt.term();
		String[] termParts = splitTerm(term);

		if(termParts.length > 1)
		{
			int termPos = offsetAtt.startOffset();
			
			for (int i = 0; i < termParts.length; i++) 
			{
				String termPart = termParts[i];
				int termPartPos = termPos + term.indexOf(termPart);
				int termPartEndPos = termPartPos + termPart.length();

				Token newToken = new Token(termPart, termPartPos, termPartEndPos);
				newToken.setPositionIncrement(0); // in the same position

				tokens.add( newToken );
			}
		}
	}

	private void applyToken(Token token)
	{
		termAtt.setTermBuffer(token.termBuffer(), 0, token.termLength());
		posAtt.setPositionIncrement(token.getPositionIncrement());
		offsetAtt.setOffset(token.startOffset(), token.endOffset());
	}

	/**
	 * Return original term together with the parts
	 * @return returnOriginalTerm
	 */
	protected boolean returnOriginalTerm()
	{
		return false;
	}
	
	/**
	 * Split term into an array of terms
	 * 
	 * @param term
	 * @return split term
	 */
	public abstract String[] splitTerm(String term);
}