LatinTokenizer.java example

Explorer

commons-master
- src
  - java
    - com
      - twitter
        common
        application
        AbstractApplication.java
        AppLauncher.java
        Application.java
        Lifecycle.java
        ShutdownRegistry.java
        ShutdownStage.java
        StartupRegistry.java
        StartupStage.java
        http
        DefaultQuitHandler.java
        GraphViewer.java
        HttpAssetConfig.java
        HttpFilterConfig.java
        HttpServletConfig.java
        Registration.java
        modules
        AppLauncherModule.java
        HttpModule.java
        LifecycleModule.java
        LocalServiceRegistry.java
        LogModule.java
        StatsExportModule.java
        StatsModule.java
        ThriftModule.java
        args
        Arg.java
        ArgFilters.java
        ArgParser.java
        ArgScanner.java
        Args.java
        ArgumentInfo.java
        CmdLine.java
        NoParser.java
        OptionInfo.java
        Parser.java
        ParserOracle.java
        Parsers.java
        Positional.java
        PositionalInfo.java
        TestMode.java
        TypeUtil.java
        Verifier.java
        VerifierFor.java
        Verifiers.java
        apt
        CmdLineProcessor.java
        Configuration.java
        constraints
        CanExecute.java
        CanExecuteFileVerifier.java
        CanRead.java
        CanReadFileVerifier.java
        CanWrite.java
        CanWriteFileVerifier.java
        Exists.java
        ExistsFileVerifier.java
        IsDirectory.java
        IsDirectoryFileVerifier.java
        NotEmpty.java
        NotEmptyIterableVerifier.java
        NotEmptyStringVerifier.java
        NotNegative.java
        NotNegativeNumberVerifier.java
        NotNull.java
        NotNullVerifier.java
        Positive.java
        PositiveNumberVerifier.java
        Range.java
        RangeNumberVerifier.java
        parsers
        AmountParser.java
        BooleanParser.java
        ByteParser.java
        CharacterParser.java
        ClassParser.java
        DateParser.java
        DoubleParser.java
        DurationParser.java
        EnumParser.java
        FileParser.java
        FloatParser.java
        InetSocketAddressParser.java
        IntegerParser.java
        ListParser.java
        LongParser.java
        MapParser.java
        MultimapParser.java
        NonParameterizedTypeParser.java
        NumberParser.java
        PairParser.java
        PatternParser.java
        RangeParser.java
        SetParser.java
        ShortParser.java
        StringParser.java
        TimeDurationParser.java
        TypeParameterizedParser.java
        URIParser.java
        URLParser.java
        UnitParser.java
        base
        CachingSupplier.java
        CallableExceptionalSupplier.java
        Closure.java
        Closures.java
        Command.java
        Commands.java
        Either.java
        ExceptionTransporter.java
        ExceptionalClosure.java
        ExceptionalCommand.java
        ExceptionalFunction.java
        ExceptionalFunctions.java
        ExceptionalSupplier.java
        Function.java
        MorePreconditions.java
        MoreSuppliers.java
        Supplier.java
        SupplierE.java
        checkstyle
        CheckStyleUtils.java
        IllegalThrowsCheck.java
        JavadocMethodRegexCheck.java
        NonOverriddenMethodNameCheck.java
        SplitSuppressionFilter.java
        collections
        Bits.java
        BoundedQueue.java
        Iterables2.java
        Multimaps.java
        Pair.java
        examples
        echo
        EchoMain.java
        Echoer.java
        FileEchoer.java
        HadoopEchoer.java
        hello
        greet
        Greeting.java
        main
        HelloMain.java
        pingpong
        handler
        PingHandler.java
        main
        Main.java
        pingpong_thrift
        client
        PingPongClient.java
        server
        PingPongHandler.java
        PingPongServer.java
        inject
        Bindings.java
        DefaultProvider.java
        ProviderMethodModule.java
        TimedInterceptor.java
        io
        Base64ZlibCodec.java
        Codec.java
        CompatibilityCodec.java
        FileUtils.java
        JsonCodec.java
        Streamer.java
        ThriftCodec.java
        logging
        BufferedLog.java
        Glog.java
        Log.java
        LogFormatter.java
        LogUtil.java
        RootLogConfig.java
        julbridge
        JULBridgeHandler.java
        JULBridgeLevelConverter.java
        JULBridgeLogManager.java
        log4j
        GlogLayout.java
        scribe
        ScribeLog.java
        memcached
        Memcached.java
        ThriftTranscoder.java
        metrics
        AbstractGauge.java
        Counter.java
        Events.java
        Gauge.java
        Gauges.java
        Histogram.java
        HistogramInterface.java
        JvmStats.java
        MetricCollisionException.java
        MetricListener.java
        MetricPoller.java
        MetricProvider.java
        MetricRegistry.java
        MetricSampler.java
        Metrics.java
        Percentile.java
        ScopedRegistry.java
        Snapshot.java
        net
        Environment.java
        InetSocketAddressHelper.java
        ProxyAuthorizer.java
        ProxyConfig.java
        UrlHelper.java
        UrlResolver.java
        UrlResolverUtil.java
        UrlTokenizerUtil.java
        http
        GuiceServletConfig.java
        HttpServerDispatch.java
        JettyHttpServerDispatch.java
        RequestLogger.java
        filters
        AbstractHttpFilter.java
        HttpStatsFilter.java
        handlers
        AbortHandler.java
        AssetHandler.java
        ContentionPrinter.java
        HealthHandler.java
        HttpServletRequestParams.java
        LogConfig.java
        LogPrinter.java
        QuitHandler.java
        StringTemplateServlet.java
        TextResponseHandler.java
        ThreadStackPrinter.java
        ThriftServlet.java
        TimeSeriesDataSource.java
        VarsHandler.java
        VarsJsonHandler.java
        pprof
        ContentionProfileHandler.java
        CpuProfileHandler.java
        HeapProfileHandler.java
        ProfileHandler.java
        loadbalancing
        LeastConnectedStrategy.java
        LoadBalancer.java
        LoadBalancerImpl.java
        LoadBalancingStrategy.java
        MarkDeadStrategy.java
        MarkDeadStrategyWithHostCheck.java
        RandomStrategy.java
        RequestTracker.java
        RoundRobinStrategy.java
        StaticLoadBalancingStrategy.java
        SubsetStrategy.java
        TrafficMonitorAdapter.java
        monitoring
        ConnectionMonitor.java
        TrafficMonitor.java
        pool
        Connection.java
        ConnectionFactory.java
        ConnectionPool.java
        DynamicHostSet.java
        DynamicHostSetUtil.java
        DynamicPool.java
        MetaPool.java
        ObjectPool.java
        ResourceExhaustedException.java
        objectsize
        ObjectSizeCalculator.java
        quantity
        Amount.java
        Data.java
        Time.java
        Unit.java
        runtime
        NativeLoader.java
        security
        unittest
        UnitTestSecurityManager.java
        stats
        ApproximateHistogram.java
        CounterMap.java
        CounterMapWithTopKey.java
        Elapsed.java
        Entropy.java
        Histogram.java
        Histograms.java
        JvmStats.java
        MovingAverage.java
        MovingWindowDelta.java
        NumericStatExporter.java
        Percentile.java
        PipelineStats.java
        Precision.java
        PrintableHistogram.java
        Rate.java
        Ratio.java
        RecordingStat.java
        RecordingStatImpl.java
        RequestStats.java
        ReservoirSampler.java
        SampledStat.java
        Significance.java
        SlidingStats.java
        Stat.java
        StatImpl.java
        StatRegistry.java
        Statistics.java
        StatisticsInterface.java
        Stats.java
        StatsProvider.java
        TimeSeries.java
        TimeSeriesRepository.java
        TimeSeriesRepositoryImpl.java
        Windowed.java
        WindowedApproxHistogram.java
        WindowedHistogram.java
        WindowedStatistics.java
        testing
        RealHistogram.java
        testing
        TearDownRegistry.java
        easymock
        EasyMockTest.java
        IterableEquals.java
        junit
        rules
        Retry.java
        mockito
        MockitoTest.java
        text
        DefaultTextTokenizer.java
        TextTokenizer.java
        combiner
        DotContractedTokenCombiner.java
        EmoticonTokenCombiner.java
        ExtractorBasedTokenCombiner.java
        HashtagTokenCombiner.java
        LookAheadTokenCombiner.java
        PossessiveContractionTokenCombiner.java
        PunctuationExceptionCombiner.java
        StockTokenCombiner.java
        URLTokenCombiner.java
        UserNameTokenCombiner.java
        detector
        PunctuationDetector.java
        RegexDetector.java
        example
        TokenizerUsageExample.java
        extractor
        EmoticonExtractor.java
        HashtagExtractor.java
        RegexExtractor.java
        URLExtractor.java
        UserNameExtractor.java
        filter
        PunctuationFilter.java
        TokenFilter.java
        TokenTypeFilter.java
        token
        LuceneTokenizer2TokenStreamWrapper.java
        TokenGroupStream.java
        TokenProcessor.java
        TokenStreamAggregator.java
        TokenStreamDuplicator.java
        TokenizedCharSequence.java
        TokenizedCharSequenceStream.java
        TwitterTokenStream.java
        attribute
        CharSequenceTermAttribute.java
        CharSequenceTermAttributeImpl.java
        PartOfSpeechAttribute.java
        PartOfSpeechAttributeImpl.java
        TokenGroupAttribute.java
        TokenGroupAttributeImpl.java
        TokenType.java
        TokenTypeAttribute.java
        TokenTypeAttributeImpl.java
        tokenizer
        LatinTokenizer.java
        RegexTokenizer.java
        util
        CharSequenceTermAttributeSerializer.java
        PositionIncrementAttributeSerializer.java
        TokenStreamSerializer.java
        TokenTypeAttributeSerializer.java
        thrift
        Config.java
        TResourceExhaustedException.java
        TTimeoutException.java
        TTransportConnection.java
        Thrift.java
        ThriftConnectionFactory.java
        ThriftException.java
        ThriftFactory.java
        ThriftServer.java
        Util.java
        callers
        Caller.java
        CallerDecorator.java
        DeadlineCaller.java
        DebugCaller.java
        RetryingCaller.java
        StatTrackingCaller.java
        ThriftCaller.java
        monitoring
        TMonitoredNonblockingServerSocket.java
        TMonitoredProcessor.java
        TMonitoredServerSocket.java
        testing
        MockTSocket.java
        TestThriftTypes.java
        text
        BaseContext.java
        MapContext.java
        PairContext.java
        SequenceContext.java
        StructContext.java
        TTextProtocol.java
        TypedParser.java
        util
        BackoffDecider.java
        BackoffHelper.java
        BackoffStrategy.java
        BuildInfo.java
        Clock.java
        CommandExecutor.java
        DateUtils.java
        FileUtils.java
        LowResClock.java
        ParsingUtil.java
        QueueDrainer.java
        Random.java
        RangeNormalizer.java
        RateLimitedCommandExecutor.java
        RetryingRunnable.java
        Sampler.java
        StartWatch.java
        Stat.java
        StateMachine.java
        Timer.java
        TruncatedBinaryBackoff.java
        caching
        Cache.java
        CachingMethodProxy.java
        LRUCache.java
        concurrent
        BackingOffFutureTask.java
        ExceptionHandlingExecutorService.java
        ExceptionHandlingScheduledExecutorService.java
        ExecutorServiceShutdown.java
        ForwardingExecutorService.java
        MoreExecutors.java
        RetryingFutureTask.java
        TaskConverter.java
        logging
        ResourceLoggingConfigurator.java
        UnresettableLogManager.java
        templating
        StringTemplateHelper.java
        testing
        FakeClock.java
        FakeTicker.java
        webassets
        bootstrap
        BootstrapModule.java
        jquery
        JQueryModule.java
        zookeeper
        Candidate.java
        CandidateImpl.java
        CompoundServerSet.java
        DistributedLock.java
        DistributedLockImpl.java
        Group.java
        Partitioner.java
        ServerSet.java
        ServerSetImpl.java
        ServerSets.java
        SingletonService.java
        StaticServerSet.java
        ZooKeeperClient.java
        ZooKeeperMap.java
        ZooKeeperNode.java
        ZooKeeperUtils.java
        guice
        ServerSetModule.java
        client
        ZooKeeperClientModule.java
        flagged
        FlaggedClientConfig.java
        testing
        BaseZooKeeperTest.java
        ZooKeeperTestServer.java
        angrybird
        AngryBirdZooKeeperMain.java
        AngryBirdZooKeeperServer.java
        AngryBirdZooKeeperThriftService.java
- tests
  - java
    - com
      - twitter
        common
        application
        AppLauncherTest.java
        modules
        LifecycleModuleTest.java
        LocalServiceRegistryTest.java
        StartStatPollerTest.java
        args
        ArgFiltersTest.java
        ArgScannerTest.java
        ArgTest.java
        ArgsTest.java
        Name.java
        OptionInfoTest.java
        ParsersTest.java
        argfilterstest
        ArgsRoot.java
        subpackageA
        ArgsA.java
        subsubpackage1
        ArgsA1.java
        subpackageB
        ArgsB.java
        subpackageBwithSuffix
        ArgsBWithSuffix.java
        parsers
        MultimapParserTest.java
        TimeDurationParserTest.java
        base
        CachingSupplierTest.java
        ClosuresTest.java
        CommandsTest.java
        EitherTest.java
        ExceptionTransporterTest.java
        ExceptionalFunctionsTest.java
        MorePreconditionsTest.java
        MoreSuppliersTest.java
        collections
        BitsTest.java
        BoundedQueueTest.java
        Iterables2Test.java
        PairTest.java
        examples
        hello
        greet
        GreetingTest.java
        pingpong
        handler
        PingHandlerTest.java
        usethrift
        UseThriftTest.java
        inject
        BindingsTest.java
        DefaultProviderTest.java
        io
        Base64ZlibCodecTest.java
        CodecTestUtilities.java
        CompatibilityCodecTest.java
        FileUtilsTest.java
        JsonCodecTest.java
        ThriftCodecTest.java
        logging
        BufferedLogTest.java
        LogFormatterTest.java
        LogUtilTest.java
        RootLogConfigTest.java
        julbridge
        JULBridgeHandlerTest.java
        JULBridgeLevelConverterTest.java
        JULBridgeLogManagerTest.java
        memcached
        ThriftTranscoderTest.java
        metrics
        CounterTest.java
        HistogramTest.java
        MetricsIT.java
        MetricsTest.java
        bench
        MetricsContendedInsertionBench.java
        MetricsCreationBench.java
        MetricsInsertionBench.java
        MetricsQueryBench.java
        demo
        MetricsPrecisionDemo.java
        net
        InetSocketAddressHelperTest.java
        UrlHelperTest.java
        UrlResolverTest.java
        UrlResolverUtilTest.java
        UrlTokenizerUtilTest.java
        http
        RequestLoggerTest.java
        filters
        HttpStatsFilterIntegrationTest.java
        HttpStatsFilterTest.java
        handlers
        AssetHandlerTest.java
        HttpServletRequestParamsTest.java
        LogPrinterTest.java
        StatSupplierTestBase.java
        TimeSeriesDataSourceTest.java
        VarsHandlerTest.java
        VarsJsonHandlerTest.java
        loadbalancing
        LeastConnectedStrategyTest.java
        LoadBalancerImplTest.java
        MarkDeadStrategyTest.java
        MarkDeadStrategyWithHostCheckTest.java
        RandomStrategyTest.java
        RoundRobinStrategyTest.java
        SubsetStrategyTest.java
        monitoring
        TrafficMonitorTest.java
        pool
        ConnectionPoolTest.java
        DynamicHostSetUtilTest.java
        DynamicPoolTest.java
        objectsize
        ObjectSizeCalculatorTest.java
        quantity
        AmountTest.java
        runtime
        NativeLoaderTest.java
        security
        unittest
        UnitTestSecurityManagerTest.java
        stats
        ApproximateHistogramTest.java
        ElapsedTest.java
        EntropyTest.java
        MergedHistogramTest.java
        MovingAverageTest.java
        MovingWindowDeltaTest.java
        NumericStatExporterTest.java
        PercentileTest.java
        PipelineStatsTest.java
        PrintableHistogramTest.java
        RateTest.java
        ReservoirSamplerTest.java
        StatisticsTest.java
        StatsTest.java
        TimeSeriesRepositoryImplTest.java
        WindowedHistogramTest.java
        WindowedStatsTest.java
        WindowedTest.java
        testing
        TearDownRegistryTest.java
        easymock
        EasyMockTestTest.java
        IterableEqualsTest.java
        junit
        rules
        RetryTest.java
        text
        DefaultTextTokenizerTest.java
        combiner
        DotContractedTokenCombinerTest.java
        EmoticonTokenCombinerTest.java
        HashtagTokenCombinerTest.java
        PossessiveContractionTokenCombinerTest.java
        PunctuationExceptionCombinerTest.java
        StockTokenCombinerTest.java
        detector
        PunctuationDetectorTest.java
        extractor
        HashtagExtractorTest.java
        token
        TokenStreamAggregatorTest.java
        TokenStreamDuplicatorTest.java
        TokenizedCharSequenceStreamTest.java
        TokenizedCharSequenceTest.java
        attribute
        CharSequenceTermAttributeImplTest.java
        PartOfSpeechAttributeImplTest.java
        TokenGroupAttributeImplTest.java
        TokenTypeAttributeImplTest.java
        tokenizer
        LatinTokenizerTest.java
        RegexTokenizerTest.java
        util
        TokenStreamSerializerTest.java
        TokenTypeAttributeSerializerTest.java
        thrift
        ThriftConnectionFactoryTest.java
        ThriftFactoryTest.java
        ThriftServerTest.java
        ThriftTest.java
        callers
        AbstractCallerTest.java
        DeadlineCallerTest.java
        RetryingCallerTest.java
        text
        TTextProtocolTest.java
        util
        BackoffDeciderTest.java
        BackoffHelperTest.java
        LowResClockTest.java
        QueueDrainerTest.java
        RateLimitedCommandExecutorTest.java
        SamplerTest.java
        StateMachineTest.java
        TruncatedBinaryBackoffTest.java
        caching
        CachingMethodProxyTest.java
        LRUCacheTest.java
        concurrent
        ExceptionHandlingExecutorServiceTest.java
        ExceptionHandlingScheduledExecutorServiceTest.java
        templating
        StringTemplateHelperTest.java
        testing
        FakeClockTest.java
        zookeeper
        CandidateImplTest.java
        CompoundServerSetTest.java
        DistributedLockTest.java
        GroupTest.java
        PartitionerTest.java
        ServerSetImplTest.java
        ServerSetsTest.java
        SingletonServiceTest.java
        StaticServerSetTest.java
        ZooKeeperClientTest.java
        ZooKeeperMapTest.java
        ZooKeeperNodeTest.java
        ZooKeeperUtilsTest.java
        guice
        ServerSetModuleTest.java
        testing
        angrybird
        AngryBirdZooKeeperTest.java

// =================================================================================================
// Copyright 2011 Twitter, Inc.
// -------------------------------------------------------------------------------------------------
// Licensed under the Apache License, Version 2.0 (the "License");
// you may not use this work except in compliance with the License.
// You may obtain a copy of the License in the LICENSE file, or at:
//
//  http://www.apache.org/licenses/LICENSE-2.0
//
// Unless required by applicable law or agreed to in writing, software
// distributed under the License is distributed on an "AS IS" BASIS,
// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
// See the License for the specific language governing permissions and
// limitations under the License.
// =================================================================================================

package com.twitter.common.text.tokenizer;

import java.util.regex.Pattern;

import javax.annotation.Nullable;

import org.apache.lucene.util.AttributeSource;

import com.twitter.common.text.detector.PunctuationDetector;

/**
 * Tokenizes text written in Latin alphabets such as English, French, German.
 */
public class LatinTokenizer extends RegexTokenizer {
  // delimiter = one or more space, or one or more punctuation followed by space.
  private static final String DELIMITER = "(?:" + PunctuationDetector.SPACE_REGEX + "+)|("
      + PunctuationDetector.PUNCTUATION_REGEX + ")" + PunctuationDetector.SPACE_REGEX + "*";
  private static final String DELIMITER_WITHOUT_COMBINING_MARKS = "(?:" + PunctuationDetector.SPACE_REGEX + "+)|("
          + PunctuationDetector.PUNCTUATION_REGEX_WITHOUT_COMBINING_MARKS + ")" + PunctuationDetector.SPACE_REGEX + "*";
  private static final int PATTERN_FLAGS =
    Pattern.CASE_INSENSITIVE | Pattern.CANON_EQ | Pattern.DOTALL;
  private static final Pattern SPLIT_PATTERN = Pattern.compile(DELIMITER, PATTERN_FLAGS);
  private static final Pattern SPLIT_PATTERN_WITHOUT_COMBINING_MARKS =
          Pattern.compile(DELIMITER_WITHOUT_COMBINING_MARKS, PATTERN_FLAGS);
  private static final int PUNCTUATION_GROUP = 1;

  // Please use Builder
  protected LatinTokenizer() {
  }

  protected LatinTokenizer(AttributeSource attributeSource) {
    super(attributeSource);
  }

  @Override
  protected boolean isSpace(char c) {
    // A newline is considered as punctuation.
    return Character.isSpaceChar(c) && c != '\n' && c != '\r';
  }

  @Override
  protected boolean isLetter(char c) {
    return Character.isLetter(c);
  }

  public static final class Builder extends AbstractBuilder<LatinTokenizer, Builder> {
    public Builder() {
      setDelimiterPattern(SPLIT_PATTERN);
      setPunctuationGroupInDelimiterPattern(PUNCTUATION_GROUP);
      setKeepPunctuation(true);
    }

    public Builder useCombiningMarksAsDelimiter(boolean useCombiningMarks) {
      if (useCombiningMarks) {
        setDelimiterPattern(SPLIT_PATTERN);
      } else
        setDelimiterPattern(SPLIT_PATTERN_WITHOUT_COMBINING_MARKS);
      return this;
    }

    @Override
    protected LatinTokenizer buildTokenizer(@Nullable AttributeSource attributeSource) {
      if (attributeSource == null) {
        return new LatinTokenizer();
      } else {
        return new LatinTokenizer(attributeSource);
      }
    }
  }
}