CamelCaseTokenizer.java example

Explorer

eclipse-instasearch-master
- instasearch
  - src
    - it
      - unibz
        instasearch
        InstaSearch.java
        InstaSearchPlugin.java
        InstaSearchStartup.java
        actions
        BuildIndexActionDelegate.java
        CheckUpdatesActionDelegate.java
        CollapseAllActionDelegate.java
        DeleteIndexActionDelegate.java
        ExpandAllActionDelegate.java
        IncrementalSearchActionDelegate.java
        InstaSearchActionDelegate.java
        OpenSearchDialog.java
        PreferencesAction.java
        ShowExceptionAction.java
        ShowInstaSearchAction.java
        VisitHomePageActionDelegate.java
        indexing
        Field.java
        FileAnalyzer.java
        LengthNormSimilarity.java
        QueryAnalyzer.java
        ResourceCollector.java
        SearchQuery.java
        SearchResult.java
        SearchResultDoc.java
        Searcher.java
        StorageIndexer.java
        WorkspaceIndexer.java
        WorkspaceIndexerJDT.java
        querying
        CSVExpander.java
        CurrentProjectSetter.java
        FieldAliasConverter.java
        FileNameSearcher.java
        FilterSetter.java
        FolderSearcher.java
        LastTermQueryPrefixer.java
        LowercaseConverter.java
        ModifiedTimeConverter.java
        PhraseSearcher.java
        QueryFuzzifier.java
        QueryVisitor.java
        UppercaseNameExpander.java
        VisitableQuery.java
        WorkingSetExpander.java
        tokenizers
        CamelCaseTokenizer.java
        DotSplitTokenizer.java
        TermSplitTokenizer.java
        WordSplitTokenizer.java
        standard
        CharStream.java
        FastCharStream.java
        ParseException.java
        StandardTokenizer.java
        StandardTokenizerConstants.java
        StandardTokenizerTokenManager.java
        Token.java
        TokenMgrError.java
        jobs
        CheckUpdatesJob.java
        DeleteIndexJob.java
        IndexUpdateJob.java
        IndexingJob.java
        UpdatePluginJob.java
        prefs
        InstaSearchPreferencePage.java
        PreferenceConstants.java
        PreferenceInitializer.java
        ui
        DropdownMenuProvider.java
        InstaSearchPage.java
        InstaSearchUI.java
        InstaSearchView.java
        MatchHighlightJob.java
        ReportErrorDialog.java
        ResultContentProvider.java
        ResultLabelProvider.java
        SearchContentProposalProvider.java
        SearchJob.java
        SearchViewControl.java
        StyledTextContentAdapter.java
  - test
    - it
      - unibz
        instasearch
        indexing
        SearcherTest.java
        TestSearcher.java
        TestStorage.java

/*
 * Copyright (c) 2009 Andrejs Jermakovics.
 * 
 * All rights reserved. This program and the accompanying materials
 * are made available under the terms of the Eclipse Public License v1.0
 * which accompanies this distribution, and is available at
 * http://www.eclipse.org/legal/epl-v10.html
 *
 * Contributors:
 *     Andrejs Jermakovics - initial implementation
 */
package it.unibz.instasearch.indexing.tokenizers;


import org.apache.lucene.analysis.TokenStream;

/**
 * Splits words at camel case, underscore and dot
 */
public class CamelCaseTokenizer extends TermSplitTokenizer {

	public CamelCaseTokenizer(TokenStream in) {
	    super(in);
	}
	
	@Override
	public String[] splitTerm(String term) {
		
		String newWord = term.replaceAll("([A-Z][a-z])", "_$1"); // not ideal, but short
		newWord = newWord.replaceAll("([a-z])([A-Z])", "$1_$2"); 
		
		return newWord.split("[_]"); // will also split CONSTANT_NAMES 
	}

	@Override
	protected boolean returnOriginalTerm() {
		return true;
	}
}