Tokenizer.java example

Explorer

carrot2-master
- applications
  - carrot2-benchmarks
    - src-test
      - org
        carrot2
        core
        ControllerOverheadBenchmark.java
        benchmarks
        memtime
        BasicPreprocessing.java
        CompletePreprocessing.java
        MemTimeBenchmark.java
        OpenSourceAlgorithmsBenchmark.java
        PreprocessingBenchmark.java
  - carrot2-cli
    - src
      - org
        carrot2
        cli
        batch
        BatchApp.java
  - carrot2-dcs
    - examples
      - java
        src
        main
        java
        org
        carrot2
        dcs
        Examples.java
        HttpClientPostProvider.java
        IHttpMultipartPostProvider.java
        JaxRsPostProvider.java
        StreamUtils.java
    - src
      - org
        carrot2
        dcs
        DcsApp.java
        DcsConfig.java
        DcsRequestModel.java
        MemoryFileItemFactory.java
        RestProcessorServlet.java
    - src-test
      - org
        carrot2
        dcs
        AuthConnectionTest.java
        DcsAppTest.java
  - carrot2-examples
    - examples
      - org
        carrot2
        examples
        ConsoleFormatter.java
        CreateLuceneIndex.java
        SampleDocumentData.java
        clustering
        BingKeyAccess.java
        ClusteringDataFromDocumentSources.java
        ClusteringDataFromLucene.java
        ClusteringDataFromLuceneWithCustomFields.java
        ClusteringDataFromPubMed.java
        ClusteringDocumentList.java
        ClusteringNonEnglishContent.java
        MoreConfigurationsOfOneAlgorithmInCachingController.java
        UsingAttributes.java
        UsingCachingController.java
        UsingComponentSuites.java
        UsingCustomLanguageModel.java
        UsingCustomLexicalResources.java
        core
        LoadingAttributeValuesFromXml.java
        SavingAttributeValuesToXml.java
        SavingResultsToJson.java
        SavingResultsToXml.java
        research
        ClusteringQualityBenchmark.java
        source
        ByFirstTitleLetterClusteringAlgorithm.java
        ExampleCustomComponents.java
        ModuloDocumentSource.java
  - carrot2-webapp
    - src
      - org
        carrot2
        webapp
        LogInitContextListener.java
        QueryProcessorServlet.java
        RootRedirectFilter.java
        WebApp.java
        filter
        FarFutureExpiresHeaderFilter.java
        QueryWordHighlighter.java
        jawr
        JawrUrlGenerator.java
        model
        AssetUrlsModel.java
        AttributeMetadataModel.java
        ModelWithDefault.java
        PageModel.java
        RequestModel.java
        RequestType.java
        ResultsCacheModel.java
        ResultsSizeModel.java
        ResultsViewModel.java
        SkinModel.java
        WebappConfig.java
        util
        UserAgentUtils.java
    - src-test
      - org
        carrot2
        webapp
        ControlUnicodeCharacterTest.java
        filter
        QueryWordHighlighterTest.java
        util
        UserAgentUtilsTest.java
- core
  - carrot2-algorithm-kmeans
    - src
      - org
        carrot2
        clustering
        kmeans
        BisectingKMeansClusteringAlgorithm.java
        BisectingKMeansProcessingContext.java
    - src-test
      - org
        carrot2
        clustering
        kmeans
        BisectingKMeansClusteringAlgorithmTest.java
  - carrot2-algorithm-lingo
    - src
      - org
        carrot2
        clustering
        lingo
        ClusterBuilder.java
        IFeatureScorer.java
        ILabelAssigner.java
        LingoClusteringAlgorithm.java
        LingoProcessingContext.java
        SimpleLabelAssigner.java
        UniqueLabelAssigner.java
    - src-test
      - org
        carrot2
        clustering
        lingo
        ClusterDocumentAssignerTest.java
        ClusterLabelBuilderTest.java
        ClusterMergerTest.java
        LingoClusteringAlgorithmTest.java
        LingoProcessingComponentTestBase.java
  - carrot2-algorithm-stc
    - src
      - org
        carrot2
        clustering
        stc
        ClusterCandidate.java
        GeneralizedSuffixTree.java
        STCClusteringAlgorithm.java
        text
        suffixtree
        CharacterSequence.java
        ISequence.java
        IntegerSequence.java
        SuffixTree.java
        SuffixTreeBuilder.java
    - src-test
      - org
        carrot2
        clustering
        stc
        GeneralizedSuffixTreeTest.java
        STCClusteringAlgorithmTest.java
        text
        suffixtree
        SuffixTreeTest.java
  - carrot2-algorithm-synthetic
    - src
      - org
        carrot2
        clustering
        synthetic
        ByFieldClusteringAlgorithm.java
        ByUrlClusteringAlgorithm.java
        PassthroughClusteringAlgorithm.java
    - src-test
      - org
        carrot2
        clustering
        synthetic
        ByFieldClusteringAlgorithmTest.java
        ByUrlClusteringAlgorithmTest.java
        DocumentWithUrlsFactory.java
  - carrot2-component-suites
    - src-test
      - org
        carrot2
        core
        ComponentSuitesTest.java
  - carrot2-core
    - src
      - org
        carrot2
        core
        CachingProcessingComponentManager.java
        Cluster.java
        ComponentInitializationException.java
        Controller.java
        ControllerContextImpl.java
        ControllerContextListenerAdapter.java
        ControllerFactory.java
        ControllerStatistics.java
        ControllerUtils.java
        Document.java
        DocumentSourceDescriptor.java
        ExecutorServiceShutdownListener.java
        HttpAuthHub.java
        IClusteringAlgorithm.java
        IControllerContext.java
        IControllerContextListener.java
        IDocumentSource.java
        IProcessingComponent.java
        IProcessingComponentManager.java
        LanguageCode.java
        Platform.java
        PoolingProcessingComponentManager.java
        ProcessingComponentBase.java
        ProcessingComponentConfiguration.java
        ProcessingComponentDescriptor.java
        ProcessingComponentSuite.java
        ProcessingComponentSuiteInclude.java
        ProcessingException.java
        ProcessingResult.java
        ReferenceEquality.java
        SimpleProcessingComponentManager.java
        attribute
        AttributeNames.java
        CommonAttributes.java
        Init.java
        Internal.java
        InternalAttributePredicate.java
        Processing.java
        source
        MultipageSearchEngine.java
        MultipageSearchEngineMetadata.java
        SearchEngineBase.java
        SearchEngineResponse.java
        SearchEngineStats.java
        SimpleSearchEngine.java
        UniqueFieldPredicate.java
    - src-test
      - org
        carrot2
        core
        ClusterTest.java
        ControllerTest.java
        ControllerTestsBase.java
        ControllerTestsCaching.java
        ControllerTestsCommon.java
        ControllerTestsPooling.java
        DelegatingProcessingComponent.java
        DocumentTest.java
        DummyControllerContext.java
        ProcessingResultTest.java
        TestAlgorithm.java
        TestDocumentSource.java
        test
        Assertions.java
        ByteByteArrayAssert.java
        CharCharArrayAssert.java
        ClusteringAlgorithmTestBase.java
        DocumentSourceTestBase.java
        DoubleArrayAssert.java
        IntIntArrayAssert.java
        MultipageDocumentSourceTestBase.java
        ProcessingComponentTestBase.java
        QueryableDocumentSourceTestBase.java
        SampleDocumentData.java
        TestDocumentFactory.java
        assertions
        Carrot2CoreAssertions.java
        ClusterAssertion.java
        ClusterCheck.java
        ClusterListAssertion.java
        ClusterPairCheck.java
        DocumentAssertion.java
        DocumentListAssertion.java
        GenericListAssertion.java
        source
        SearchRangeTest.java
  - carrot2-output-metrics
    - src
      - org
        carrot2
        output
        metrics
        ClusteringMetricsCalculator.java
        ContaminationMetric.java
        IClusteringMetric.java
        IdealPartitioningBasedMetric.java
        NormalizedMutualInformationMetric.java
        PrecisionRecallMetric.java
    - src-test
      - org
        carrot2
        output
        metrics
        ContaminationMetricTest.java
        IdealPartitioningBasedMetricTest.java
        NormalizedMutualInformationMetricTest.java
        PrecisionRecallMetricTest.java
  - carrot2-source-ambient
    - src
      - org
        carrot2
        source
        ambient
        AmbientDocumentSource.java
        FubDocumentSource.java
        FubTestCollection.java
        Odp239DocumentSource.java
    - src-test
      - org
        carrot2
        source
        ambient
        AmbientDocumentSourceTest.java
        FubDocumentSourceTestBase.java
        Odp239DocumentSourceTest.java
  - carrot2-source-etools
    - src
      - org
        carrot2
        source
        etools
        EToolsDocumentSource.java
        IpBannedException.java
    - src-test
      - org
        carrot2
        source
        etools
        EToolsDocumentSourceTest.java
  - carrot2-source-idol
    - src
      - org
        carrot2
        source
        idol
        IdolDocumentSource.java
  - carrot2-source-lucene
    - src
      - org
        carrot2
        source
        lucene
        FSDirectoryWrapper.java
        IFieldMapper.java
        LuceneDocumentSource.java
        PlainTextFormatter.java
        SimpleFieldMapper.java
    - src-test
      - org
        carrot2
        source
        lucene
        FSDirectoryWrapperTest.java
        LuceneDocumentSourceTest.java
        LuceneIndexUtils.java
  - carrot2-source-microsoft
    - src
      - org
        carrot2
        source
        microsoft
        v5
        AdultOption.java
        Bing5DocumentSource.java
        Bing5NewsDocumentSource.java
        BingResponse.java
        ErrorResponse.java
        Freshness.java
        MarketOption.java
        NewsResponse.java
        SearchResponse.java
        SourceType.java
        UnstructuredResponse.java
    - src-test
      - org
        carrot2
        source
        microsoft
        v5
        Bing5DocumentSourceTest.java
        Bing5NewsDocumentSourceTest.java
        Bing5ResponseParsingTest.java
  - carrot2-source-opensearch
    - src
      - org
        carrot2
        source
        opensearch
        OpenSearchDocumentSource.java
        RomeFetcherUtils.java
    - src-test
      - org
        carrot2
        source
        opensearch
        OpenSearchDocumentSourceByResultIncrementTest.java
        OpenSearchDocumentSourceTest.java
  - carrot2-source-pubmed
    - src
      - org
        carrot2
        source
        pubmed
        EmptyEntityResolver.java
        PathTrackingHandler.java
        PubMedContentHandler.java
        PubMedDocumentSource.java
        PubMedIdSearchHandler.java
    - src-test
      - org
        carrot2
        source
        pubmed
        PubMedContentHandlerTest.java
        PubMedDocumentSourceTest.java
        PubMedIdSearchHandlerTest.java
  - carrot2-source-solr
    - src
      - org
        carrot2
        source
        solr
        SolrDocumentSource.java
  - carrot2-source-xml
    - src
      - org
        carrot2
        source
        xml
        RemoteXmlSimpleSearchEngineBase.java
        XmlDocumentSource.java
        XmlDocumentSourceHelper.java
    - src-test
      - org
        carrot2
        source
        xml
        XmlDocumentSourceTest.java
  - carrot2-util-common
    - src
      - org
        carrot2
        util
        CharArrayUtils.java
        CharSequenceUtils.java
        CloseableUtils.java
        CollectionUtils.java
        ExceptionUtils.java
        ExecutorServiceUtils.java
        GraphUtils.java
        IntArrayPredicateIterator.java
        IntMapUtils.java
        LinearApproximation.java
        ListUtils.java
        MapUtils.java
        MathUtils.java
        Pair.java
        PriorityQueue.java
        RangeUtils.java
        ReflectionUtils.java
        RollingWindowAverage.java
        SetUtils.java
        StreamUtils.java
        StringUtils.java
        SystemPropertyStack.java
        annotations
        AspectModified.java
        Immutable.java
        ThreadSafe.java
        attribute
        AttributeValueSet.java
        AttributeValueSets.java
        DefaultGroups.java
        factory
        CachedInstanceFactoryDecorator.java
        FallbackFactory.java
        IFactory.java
        NewClassInstanceFactory.java
        SingletonFactory.java
        httpclient
        HttpClientFactory.java
        HttpHeaders.java
        HttpRedirectStrategy.java
        HttpUtils.java
        pool
        FixedSizePool.java
        IActivationListener.java
        IDisposalListener.java
        IInstantiationListener.java
        IParameterizedPool.java
        IPassivationListener.java
        SoftUnboundedPool.java
        resource
        ClassLoaderLocator.java
        ClassLoaderResource.java
        ClassLocator.java
        ClassResource.java
        ContextClassLoaderLocator.java
        DirLocator.java
        FileResource.java
        IResource.java
        IResourceLocator.java
        PrefixDecoratorLocator.java
        ResourceCache.java
        ResourceLookup.java
        ServletContextLocator.java
        URLResource.java
        URLResourceWithParams.java
        simplexml
        DefaultConstructorSimpleXmlWrapper.java
        ISimpleXmlWrapper.java
        ISourceLocationAware.java
        ListSimpleXmlWrapper.java
        MapSimpleXmlWrapper.java
        PersisterHelpers.java
        SessionInitStrategy.java
        SimpleXmlWrapperValue.java
        SimpleXmlWrappers.java
        tests
        CarrotTestCase.java
        SuiteResultInfoWriter.java
        UsesExternalServices.java
        xslt
        NopURIResolver.java
        StylesheetErrorListener.java
        TemplatesPool.java
        TransformerErrorListener.java
    - src-test
      - org
        carrot2
        util
        CharArrayUtilsTest.java
        ExceptionUtilsTest.java
        GraphUtilsTest.java
        IndirectSorterTest.java
        IntArrayPredicateIteratorTest.java
        LinearApproximationTest.java
        RangeUtilsTest.java
        RollingWindowAverageTest.java
        StringUtilsTest.java
        attribute
        AttributeValueSetTest.java
        AttributeValueSetsTest.java
        ResourceFromStringTest.java
        httpclient
        HttpClientFactoryTest.java
        pool
        FixedSizePoolTest.java
        ParameterizedPoolTestBase.java
        SoftUnboundedPoolTest.java
        resource
        ResourceLookupTest.java
        ServletContextLocatorTest.java
        URLResourceWithParamsTest.java
        simplexml
        SimpleXmlWrappersTest.java
  - carrot2-util-log4j
    - src
      - org
        carrot2
        log4j
        BufferingAppender.java
  - carrot2-util-matrix
    - src
      - org
        carrot2
        mahout
        collections
        Arithmetic.java
        Constants.java
        common
        RandomUtils.java
        math
        AbstractMatrix.java
        AbstractVector.java
        Algebra.java
        Arrays.java
        CardinalityException.java
        DenseMatrix.java
        DenseVector.java
        IndexException.java
        Matrix.java
        MatrixSlice.java
        MatrixVectorView.java
        MatrixView.java
        OrderedIntDoubleMapping.java
        PersistentObject.java
        RandomAccessSparseVector.java
        SequentialAccessSparseVector.java
        SingularValueDecomposition.java
        Sorting.java
        Swapper.java
        Vector.java
        VectorIterable.java
        VectorView.java
        buffer
        DoubleBufferConsumer.java
        IntBufferConsumer.java
        function
        ByteComparator.java
        CharComparator.java
        DoubleComparator.java
        DoubleDoubleFunction.java
        DoubleFunction.java
        DoubleProcedure.java
        FloatComparator.java
        Functions.java
        IntComparator.java
        IntDoubleProcedure.java
        IntIntDoubleFunction.java
        IntProcedure.java
        LongComparator.java
        Mult.java
        PlusMult.java
        ShortComparator.java
        VectorFunction.java
        list
        AbstractDoubleList.java
        AbstractIntList.java
        AbstractList.java
        DoubleArrayList.java
        IntArrayList.java
        map
        AbstractIntDoubleMap.java
        HashFunctions.java
        OpenIntDoubleHashMap.java
        PrimeFinder.java
        matrix
        DoubleMatrix1D.java
        DoubleMatrix2D.java
        impl
        AbstractMatrix.java
        AbstractMatrix1D.java
        AbstractMatrix2D.java
        DelegateDoubleMatrix1D.java
        DenseDoubleMatrix1D.java
        DenseDoubleMatrix2D.java
        SelectedDenseDoubleMatrix1D.java
        SelectedDenseDoubleMatrix2D.java
        SelectedSparseDoubleMatrix1D.java
        SelectedSparseDoubleMatrix2D.java
        SparseDoubleMatrix1D.java
        SparseDoubleMatrix2D.java
        WrapperDoubleMatrix1D.java
        WrapperDoubleMatrix2D.java
        linalg
        EigenvalueDecomposition.java
        Property.java
        set
        AbstractSet.java
        matrix
        MatrixUtils.java
        factorization
        IIterativeMatrixFactorization.java
        IMatrixFactorization.java
        IMatrixFactorizationFactory.java
        IterationNumberGuesser.java
        IterativeMatrixFactorizationBase.java
        IterativeMatrixFactorizationFactory.java
        KMeansMatrixFactorization.java
        KMeansMatrixFactorizationFactory.java
        LocalNonnegativeMatrixFactorization.java
        LocalNonnegativeMatrixFactorizationFactory.java
        MatrixFactorizationBase.java
        NonnegativeMatrixFactorizationED.java
        NonnegativeMatrixFactorizationEDFactory.java
        NonnegativeMatrixFactorizationKL.java
        NonnegativeMatrixFactorizationKLFactory.java
        PartialSingularValueDecomposition.java
        PartialSingularValueDecompositionFactory.java
        seeding
        ISeedingStrategy.java
        ISeedingStrategyFactory.java
        KMeansSeedingStrategy.java
        KMeansSeedingStrategyFactory.java
        RandomSeedingStrategy.java
        RandomSeedingStrategyFactory.java
    - src-test
      - org
        carrot2
        matrix
        DoubleMatrix1DAssertion.java
        DoubleMatrix2DAssertion.java
        MatrixAssertions.java
        MatrixUtilsTest.java
        factorization
        MatrixFactorizationTest.java
  - carrot2-util-text
    - src
      - org
        carrot2
        text
        analysis
        ExtendedWhitespaceTokenizer.java
        ExtendedWhitespaceTokenizerImpl.java
        ITokenizer.java
        TokenTypeUtils.java
        clustering
        IMonolingualClusteringAlgorithm.java
        MultilingualClustering.java
        linguistic
        DefaultLexicalData.java
        DefaultLexicalDataFactory.java
        DefaultStemmerFactory.java
        DefaultTokenizerFactory.java
        ILexicalData.java
        ILexicalDataFactory.java
        IStemmer.java
        IStemmerFactory.java
        ITokenizerFactory.java
        IdentityStemmer.java
        IdentityStemmerFactory.java
        JapaneseUnsupportedStub.java
        LanguageModel.java
        LexicalDataLoader.java
        SnowballStemmerAdapter.java
        lucene
        ArabicStemmerAdapter.java
        ChineseTokenizerAdapter.java
        HindiNormalizer.java
        HindiStemmer.java
        HindiStemmerAdapter.java
        IndicNormalizer.java
        StemmerUtil.java
        ThaiTokenizerAdapter.java
        morfologik
        MorfologikStemmerAdapter.java
        snowball
        Among.java
        SnowballProgram.java
        stemmers
        DanishStemmer.java
        DutchStemmer.java
        EnglishStemmer.java
        FinnishStemmer.java
        FrenchStemmer.java
        GermanStemmer.java
        HungarianStemmer.java
        ItalianStemmer.java
        NorwegianStemmer.java
        PortugueseStemmer.java
        RomanianStemmer.java
        RussianStemmer.java
        SpanishStemmer.java
        SwedishStemmer.java
        TurkishStemmer.java
        preprocessing
        CaseNormalizer.java
        DocumentAssigner.java
        LabelFilterProcessor.java
        LabelFormatter.java
        LanguageModelStemmer.java
        PhraseExtractor.java
        PreprocessedDocumentScanner.java
        PreprocessingContext.java
        SparseArray.java
        StopListMarker.java
        Substring.java
        SubstringComparator.java
        SuffixSorter.java
        Tokenizer.java
        filter
        CompleteLabelFilter.java
        CompleteLabelFilterBase.java
        GenitiveLabelFilter.java
        ILabelFilter.java
        LeftCompleteLabelFilter.java
        MinLengthLabelFilter.java
        NumericLabelFilter.java
        QueryLabelFilter.java
        RightCompleteLabelFilter.java
        SingleLabelFilterBase.java
        StopLabelFilter.java
        StopWordLabelFilter.java
        pipeline
        BasicPreprocessingPipeline.java
        CompletePreprocessingPipeline.java
        IPreprocessingPipeline.java
        util
        CharArrayComparators.java
        MutableCharArray.java
        MutableCharArrayUtils.java
        TabularOutput.java
        vsm
        ITermWeighting.java
        LinearTfIdfTermWeighting.java
        LogTfIdfTermWeighting.java
        ReducedVectorSpaceModelContext.java
        TermDocumentMatrixBuilder.java
        TermDocumentMatrixReducer.java
        TfTermWeighting.java
        VectorSpaceModelContext.java
    - src-test
      - org
        carrot2
        text
        clustering
        MultilingualClusteringTest.java
        linguistic
        ArabicTest.java
        ChineseTokenizerTest.java
        DefaultLexicalDataFactoryTest.java
        DefaultStemmerFactoryTest.java
        DefaultTokenizerFactoryTest.java
        EnglishTest.java
        ExtendedWhitespaceTokenizerTest.java
        HindiStemmerFactoryTest.java
        LanguageModelTest.java
        LanguageModelTestBase.java
        PolishTest.java
        ThaiTokenizerTest.java
        TokenizerTestBase.java
        preprocessing
        CaseNormalizerTest.java
        DocumentAssignerTest.java
        LabelFilterTestBase.java
        LabelFormatterTest.java
        PhraseExtractorTest.java
        PreprocessedDocumentScannerTest.java
        PreprocessingComponentTestBase.java
        PreprocessingContextAssert.java
        PreprocessingContextBuilder.java
        PreprocessingContextTestBase.java
        StemmerEnglishTest.java
        StemmerSyntheticTest.java
        SubstringComparatorTest.java
        SuffixSorterTest.java
        TestLanguageModelFactory.java
        TestLexicalDataFactory.java
        TestStemmerFactory.java
        TestTokenizerFactory.java
        TokenizerTest.java
        WordMarkerTest.java
        filter
        CompleteLabelFilterTest.java
        GenitiveLabelFilterTest.java
        MinLengthLabelFilterTest.java
        NumericLabelFilterTest.java
        QueryLabelFilterTest.java
        StopLabelFilterEnglishTest.java
        StopWordLabelFilterEnglishTest.java
        StopWordLabelFilterMergedTest.java
        StopWordLabelFilterSyntheticTest.java
        util
        CharArrayComparatorsTest.java
        MutableCharArrayTest.java
        MutableCharArrayUtilsTest.java
        vsm
        PhraseMatrixBuilderTest.java
        ReducedTermDocumentMatrixBuilderTestBase.java
        TermDocumentMatrixBuilderTest.java
        TermDocumentMatrixBuilderTestBase.java
  - carrot2-util-xsltfilter
    - src
      - org
        carrot2
        util
        xsltfilter
        AddHeaderFilter.java
        DeferredOutputStream.java
        IContentTypeListener.java
        TransformingDocumentHandler.java
        XSLTFilter.java
        XSLTFilterConstants.java
        XSLTFilterServletResponse.java
- doc
  - src
    - org
      - carrot2
        core
        ProcessingComponentDumper.java
- lib
  - org.carrot2.antlib
    - src
      - main
        java
        org
        carrot2
        antlib
        tasks
        AbstractLicenseTask.java
        FileURL.java
        FindVersionTask.java
        LicenseListTask.java
        LicenseReplaceTask.java
        SetPropertyTask.java
        SourceFile.java
        SwitchClassLoader.java
- workbench


/*
 * Carrot2 project.
 *
 * Copyright (C) 2002-2016, Dawid Weiss, Stanisław Osiński.
 * All rights reserved.
 *
 * Refer to the full license file "carrot2.LICENSE"
 * in the root folder of the repository checkout or at:
 * http://www.carrot2.org/carrot2.LICENSE
 */

package org.carrot2.text.preprocessing;

import java.io.IOException;
import java.io.StringReader;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collection;
import java.util.Iterator;
import java.util.List;

import org.apache.commons.lang.StringUtils;
import org.carrot2.core.Document;
import org.carrot2.core.ProcessingException;
import org.carrot2.core.attribute.Init;
import org.carrot2.text.analysis.ITokenizer;
import org.carrot2.text.preprocessing.PreprocessingContext.AllFields;
import org.carrot2.text.preprocessing.PreprocessingContext.AllTokens;
import org.carrot2.text.util.MutableCharArray;
import org.carrot2.util.CharArrayUtils;
import org.carrot2.util.ExceptionUtils;
import org.carrot2.util.attribute.Attribute;
import org.carrot2.util.attribute.AttributeLevel;
import org.carrot2.util.attribute.Bindable;
import org.carrot2.util.attribute.DefaultGroups;
import org.carrot2.util.attribute.Group;
import org.carrot2.util.attribute.Input;
import org.carrot2.util.attribute.Label;
import org.carrot2.util.attribute.Level;

import com.carrotsearch.hppc.ByteArrayList;
import com.carrotsearch.hppc.IntArrayList;
import com.carrotsearch.hppc.ShortArrayList;
import org.carrot2.shaded.guava.common.collect.Lists;

/**
 * Performs tokenization of documents.
 * <p>
 * This class saves the following results to the {@link PreprocessingContext}:
 * <ul>
 * <li>{@link AllTokens#image}</li>
 * <li>{@link AllTokens#documentIndex}</li>
 * <li>{@link AllTokens#fieldIndex}</li>
 * <li>{@link AllTokens#type}</li>
 * </ul>
 */
@Bindable(prefix = "Tokenizer")
public final class Tokenizer
{
    /**
     * Textual fields of documents that should be tokenized and parsed for clustering.
     */
    @Init
    @Input
    @Attribute
    @Label("Document fields")
    @Level(AttributeLevel.ADVANCED)
    @Group(DefaultGroups.PREPROCESSING)
    public Collection<String> documentFields = Arrays.asList(new String []
    {
        Document.TITLE, Document.SUMMARY
    });

    /**
     * Token images.
     */
    private ArrayList<char []> images;

    /**
     * An array of token types.
     * 
     * @see ITokenizer
     */
    private ShortArrayList tokenTypes;

    /**
     * An array of document indexes.
     */
    private IntArrayList documentIndices;

    /**
     * An array of field indexes.
     * 
     * @see AllFields
     */
    private ByteArrayList fieldIndices;

    /**
     * Performs tokenization and saves the results to the <code>context</code>.
     */
    public void tokenize(PreprocessingContext context)
    {
        // Documents to tokenize
        final List<Document> documents = context.documents;
        
        // Fields to tokenize
        final String [] fieldNames = documentFields.toArray(new String [documentFields.size()]); 

        if (fieldNames.length > 8)
        {
            throw new ProcessingException("Maximum number of tokenized fields is 8.");
        }

        // Prepare arrays
        images = Lists.newArrayList();
        tokenTypes = new ShortArrayList();
        documentIndices = new IntArrayList();
        fieldIndices = new ByteArrayList();

        final Iterator<Document> docIterator = documents.iterator();
        int documentIndex = 0;
        final ITokenizer ts = context.language.getTokenizer();
        final MutableCharArray wrapper = new MutableCharArray(CharArrayUtils.EMPTY_ARRAY);

        while (docIterator.hasNext())
        {
            final Document doc = docIterator.next();

            boolean hadTokens = false;
            for (int i = 0; i < fieldNames.length; i++)
            {
                final byte fieldIndex = (byte) i;
                final String fieldName = fieldNames[i];
                final String fieldValue = doc.getField(fieldName);

                if (!StringUtils.isEmpty(fieldValue))
                {
                    try
                    {
                        short tokenType;

                        ts.reset(new StringReader(fieldValue));
                        if ((tokenType = ts.nextToken()) != ITokenizer.TT_EOF)
                        {
                            if (hadTokens) addFieldSeparator(documentIndex);
                            do
                            {
                                ts.setTermBuffer(wrapper);
                                add(documentIndex, fieldIndex, context.intern(wrapper), tokenType);
                            } while ( (tokenType = ts.nextToken()) != ITokenizer.TT_EOF);
                            hadTokens = true;
                        }
                    }
                    catch (IOException e)
                    {
                        // Not possible (StringReader above)?
                        throw ExceptionUtils.wrapAsRuntimeException(e);
                    }
                }
            }

            if (docIterator.hasNext())
            {
                addDocumentSeparator();
            }

            documentIndex++;
        }

        addTerminator();

        // Save results in the PreprocessingContext
        context.allTokens.documentIndex = documentIndices.toArray();
        context.allTokens.fieldIndex = fieldIndices.toArray();
        context.allTokens.image = images.toArray(new char [images.size()] []);
        context.allTokens.type = tokenTypes.toArray();
        context.allFields.name = fieldNames;

        // Clean up
        images = null;
        fieldIndices = null;
        tokenTypes = null;
        documentIndices = null;
    }

    /**
     * Adds a special terminating token required at the very end of all documents.
     */
    void addTerminator()
    {
        add(-1, (byte) -1, null, ITokenizer.TF_TERMINATOR);
    }

    /**
     * Adds a document separator to the lists.
     */
    void addDocumentSeparator()
    {
        add(-1, (byte) -1, null, ITokenizer.TF_SEPARATOR_DOCUMENT);
    }

    /**
     * Adds a field separator to the lists.
     */
    void addFieldSeparator(int documentIndex)
    {
        add(documentIndex, (byte) -1, null, ITokenizer.TF_SEPARATOR_FIELD);
    }

    /**
     * Adds a sentence separator to the lists.
     */
    void addSentenceSeparator(int documentIndex, byte fieldIndex)
    {
        add(documentIndex, fieldIndex, null, ITokenizer.TF_SEPARATOR_FIELD);
    }

    /**
     * Adds custom token code to the sequence. May be used to add separator constants.
     */
    void add(int documentIndex, byte fieldIndex, char [] image, short tokenTypeCode)
    {
        documentIndices.add(documentIndex);
        fieldIndices.add(fieldIndex);
        images.add(image);
        tokenTypes.add(tokenTypeCode);
    }
}