TextTokenizer.java example

Explorer

EPF-Composer-master
- 1.5
  - plugins
  - tests
    - org.eclipse.epf.common.tests
      - src
        org
        eclipse
        epf
        common
        tests
        CommonTests.java
        EPFVersionTest.java
        EPFVersionsTest.java
        StrUtilTest.java
        VersionUtilTest.java
        XMLUtilTest.java
    - org.eclipse.epf.diagram.tests
      - src
        org
        eclipse
        epf
        diagram
        tests
        DiagramTestCase.java
        DiagramTestPlugin.java
        DiagramTests.java
        DiagramUIServiceTest.java
    - org.eclipse.epf.library.tests
      - src
        org
        eclipse
        epf
        library
        tester
        LibraryDiffAnalyzor.java
        LibraryJunitTestService.java
        LibraryTestService.java
        LibraryTesterFactory.java
        OutputDiffAnalyzor.java
        QaTestService.java
        TestCommandFileTest.java
        TestCommandFileTests.java
        TestFolderSetup.java
        TesterOutputUtil.java
        iface
        ITestFolderSetup.java
        LibraryJunitTest.java
        LibraryTester.java
        TCExeReply.java
        TCExeReplyList.java
        TestCommand.java
        TestTracer.java
        impl
        ExportImportTestImpl.java
        LibraryJunitTestImpl.java
        LibraryTesterImpl.java
        TestCommandImpl.java
        TestCommandMgr.java
        testcommands
        TCCircularDependencyCheck.java
        TCCompareToGoldenFile.java
        TCCompareToLibrary.java
        TCCopyLibrary.java
        TCEditMethodElement.java
        TCEditMethodElementBase.java
        TCExeReplyImpl.java
        TCExeReplyListImpl.java
        TCExportConfiguration.java
        TCExportPlugins.java
        TCExportXml.java
        TCImportConfiguration.java
        TCImportPlugins.java
        TCImportXml.java
        TCNewMethodConfiguration.java
        TCNewMethodElement.java
        TCNewMethodPlugin.java
        TCOpenLibrary.java
        TCOutputMethodElement.java
        tests
        AbstractLibraryTestCase.java
        DependencyCheckerTest.java
        LibraryServiceTest.java
        LibraryTestHelper.java
        LibraryTests.java
        TestsPlugin.java
        exportimport
        ConfigExportImport.java
        ConfigExportImportTest0001.java
        ExportImport.java
        ExportImportTestMethodBase.java
        PluginExportImport.java
        PluginExportImportTest0001.java
        StandAloneTest.java
        StandAloneThreadTest.java
        XmlExportImport.java
        XmlExportImportTest0001.java
        validation
        CircularDependencyCheck.java
        ValidationTestImpl.java
        variability
        ActivityVariabilityTest.java
        AttributeFeatureTest.java
        CopyrightTest.java
        FulfillmentTest.java
        Incoming01FeatureTest.java
        Incoming0nFeatureTest.java
        Outgoing01FeatureTest.java
        Outgoing0nFeatureTest.java
        RegressionTest.java
        VariablityBaseTestCase.java
    - org.eclipse.epf.richtext.tests
      - src
        org
        eclipse
        epf
        richtext
        tests
        RichTextTest.java
        RichTextTests.java
        RichTextTestsPlugin.java
        actions
        BlockTagContribution.java
        BoldAction.java
        FontNameContribution.java
        FontSizeContribution.java
        ItalicAction.java
        RichTextAction.java
        SubscriptAction.java
        UnderlineAction.java
        editors
        HTMLEditor.java
        HTMLEditorActionBarContributor.java
        MultiPageHTMLEditor.java
        RichTextTestEditor.java
        views
        RichTextTestView.java
    - org.eclipse.epf.tests
      - src
        org
        eclipse
        epf
        tests
        AllTests.java
        ui
        UserInteractionHandlerTest.java
    - org.eclipse.epf.toolbox
      - src
        org
        eclipse
        epf
        toolbox
        ToolboxPlugin.java
        actions
        ConvertToConfigFree.java
        DiagramDoctor.java
        RemoveLocalDescriptors.java
        batch
        C.java
        EbcBatchCommandMgr.java
        EbcBatchRunner.java
        EbcExeReplies.java
        EbcExeReply.java
        EbcLibraryService.java
        EbcReportMgr.java
        commands
        EbcExportConfiguration.java
        EbcExportPlugins.java
        EbcExportXml.java
        EbcImportConfiguration.java
        EbcImportPlugins.java
        EbcImportXml.java
        EbcOpenLibrary.java
        EbcReportMethodElement.java
        EpfBatchCommand.java
        EpfBatchCommandImpl.java
        libutil
        LibUtil.java
        utils
        CopyPIIFiles.java
        DebugTest.java
        EditFiles.java
        RenameFiles.java
        XsltTransform.java

//------------------------------------------------------------------------------
// Copyright (c) 2005, 2006 IBM Corporation and others.
// All rights reserved. This program and the accompanying materials
// are made available under the terms of the Eclipse Public License v1.0
// which accompanies this distribution, and is available at
// http://www.eclipse.org/legal/epl-v10.html
//
// Contributors:
// IBM Corporation - initial implementation
//------------------------------------------------------------------------------
package org.eclipse.epf.search.analysis;

import java.io.IOException;
import java.io.Reader;

import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.Tokenizer;

import com.ibm.icu.text.BreakIterator;

/**
 * A text tokenizer that uses ICU4J to segment text into words.
 * 
 * @author Kelvin Low
 * @since 1.0
 */
public final class TextTokenizer extends Tokenizer {

	private final static int BUFFER_SIZE = 4096;

	private String text;

	private BreakIterator iterator;

	/**
	 * Creates a new instance.
	 * 
	 * @param reader
	 *            the text source
	 */
	public TextTokenizer(Reader reader) {
		super(reader);
		StringBuffer textBuffer = new StringBuffer(BUFFER_SIZE);
		char[] buffer = new char[BUFFER_SIZE];
		int charsRead;
		try {
			while ((charsRead = reader.read(buffer, 0, BUFFER_SIZE)) > 0) {
				textBuffer.append(buffer, 0, charsRead);
			}
			text = textBuffer.toString();
			iterator = BreakIterator.getWordInstance();
			iterator.setText(text);
		} catch (IOException e) {
			iterator = null;
		}
	}

	/**
	 * @see org.apache.lucene.analysis.TokenStream#next()
	 */
	public final Token next() throws IOException {
		if (iterator != null) {
			while (true) {
				int start = iterator.current();
				int end = iterator.next();
				if (end != BreakIterator.DONE) {
					String tokenText = text.substring(start, end).toLowerCase();
					if (!tokenText.equals(" ")) { //$NON-NLS-1$
						if (tokenText.endsWith("'s")) { //$NON-NLS-1$
							tokenText = tokenText.substring(0, tokenText
									.length() - 2);
						}
						return new Token(tokenText, 0, tokenText.length());
					}
				} else {
					return null;
				}
			}
		}
		return null;
	}

}