RegexTokenizer.java example

Explorer

commons-old-master
- src
  - java
    - com
      - twitter
        common
        application
        AbstractApplication.java
        AppLauncher.java
        Application.java
        Lifecycle.java
        ShutdownRegistry.java
        ShutdownStage.java
        StartupRegistry.java
        StartupStage.java
        http
        DefaultQuitHandler.java
        GraphViewer.java
        HttpAssetConfig.java
        HttpServletConfig.java
        Registration.java
        modules
        AppLauncherModule.java
        HttpModule.java
        LifecycleModule.java
        LocalServiceRegistry.java
        LogModule.java
        StatsExportModule.java
        StatsModule.java
        ThriftModule.java
        args
        Arg.java
        ArgFilters.java
        ArgParser.java
        ArgScanner.java
        Args.java
        ArgumentInfo.java
        CmdLine.java
        OptionInfo.java
        Parser.java
        ParserOracle.java
        Parsers.java
        Positional.java
        PositionalInfo.java
        TypeUtil.java
        Verifier.java
        VerifierFor.java
        Verifiers.java
        apt
        CmdLineProcessor.java
        Configuration.java
        constraints
        CanExecute.java
        CanExecuteFileVerifier.java
        CanRead.java
        CanReadFileVerifier.java
        CanWrite.java
        CanWriteFileVerifier.java
        Exists.java
        ExistsFileVerifier.java
        IsDirectory.java
        IsDirectoryFileVerifier.java
        NotEmpty.java
        NotEmptyIterableVerifier.java
        NotEmptyStringVerifier.java
        NotNegative.java
        NotNegativeNumberVerifier.java
        NotNull.java
        NotNullVerifier.java
        Positive.java
        PositiveNumberVerifier.java
        Range.java
        RangeNumberVerifier.java
        parsers
        AmountParser.java
        BooleanParser.java
        ByteParser.java
        CharacterParser.java
        ClassParser.java
        DateParser.java
        DoubleParser.java
        DurationParser.java
        EnumParser.java
        FileParser.java
        FloatParser.java
        InetSocketAddressParser.java
        IntegerParser.java
        ListParser.java
        LongParser.java
        MapParser.java
        NonParameterizedTypeParser.java
        NumberParser.java
        PairParser.java
        RangeParser.java
        SetParser.java
        ShortParser.java
        StringParser.java
        TimeDurationParser.java
        TypeParameterizedParser.java
        URIParser.java
        URLParser.java
        UnitParser.java
        base
        CachingSupplier.java
        CallableExceptionalSupplier.java
        Closure.java
        Closures.java
        Command.java
        Commands.java
        ExceptionTransporter.java
        ExceptionalClosure.java
        ExceptionalCommand.java
        ExceptionalFunction.java
        ExceptionalFunctions.java
        ExceptionalSupplier.java
        Function.java
        MorePreconditions.java
        MoreSuppliers.java
        Supplier.java
        SupplierE.java
        checkstyle
        CheckStyleUtils.java
        IllegalThrowsCheck.java
        JavadocMethodRegexCheck.java
        NonOverriddenMethodNameCheck.java
        SplitSuppressionFilter.java
        collections
        Bits.java
        BoundedQueue.java
        Iterables2.java
        Multimaps.java
        Pair.java
        inject
        Bindings.java
        DefaultProvider.java
        ProviderMethodModule.java
        TimedInterceptor.java
        io
        Codec.java
        CompatibilityCodec.java
        FileUtils.java
        JsonCodec.java
        Streamer.java
        ThriftCodec.java
        logging
        BufferedLog.java
        Log.java
        LogFormatter.java
        LogUtil.java
        RootLogConfig.java
        ScribeLog.java
        memcached
        Memcached.java
        ThriftTranscoder.java
        metrics
        AbstractGauge.java
        Events.java
        Gauge.java
        Gauges.java
        Histogram.java
        MetricListener.java
        MetricPoller.java
        MetricProvider.java
        MetricRegistry.java
        MetricSampler.java
        Metrics.java
        ScopedMetrics.java
        net
        Environment.java
        InetSocketAddressHelper.java
        ProxyAuthorizer.java
        ProxyConfig.java
        UrlHelper.java
        UrlResolver.java
        UrlResolverUtil.java
        UrlTokenizerUtil.java
        http
        GuiceServletConfig.java
        HttpServerDispatch.java
        JettyHttpServerDispatch.java
        handlers
        AbortHandler.java
        AssetHandler.java
        ContentionPrinter.java
        HealthHandler.java
        LogConfig.java
        LogPrinter.java
        QuitHandler.java
        StringTemplateServlet.java
        TextResponseHandler.java
        ThreadStackPrinter.java
        ThriftServlet.java
        TimeSeriesDataSource.java
        VarsHandler.java
        VarsJsonHandler.java
        loadbalancing
        LeastConnectedStrategy.java
        LoadBalancer.java
        LoadBalancerImpl.java
        LoadBalancingStrategy.java
        MarkDeadStrategy.java
        MarkDeadStrategyWithHostCheck.java
        RandomStrategy.java
        RequestTracker.java
        RoundRobinStrategy.java
        StaticLoadBalancingStrategy.java
        SubsetStrategy.java
        TrafficMonitorAdapter.java
        monitoring
        ConnectionMonitor.java
        TrafficMonitor.java
        pool
        Connection.java
        ConnectionFactory.java
        ConnectionPool.java
        DynamicHostSet.java
        DynamicHostSetUtil.java
        DynamicPool.java
        MetaPool.java
        ObjectPool.java
        ResourceExhaustedException.java
        objectsize
        ObjectSizeCalculator.java
        quantity
        Amount.java
        Data.java
        Time.java
        Unit.java
        stats
        ApproximateHistogram.java
        CounterMap.java
        CounterMapWithTopKey.java
        Elapsed.java
        Entropy.java
        Histogram.java
        JvmStats.java
        MovingAverage.java
        MovingWindowDelta.java
        NumericStatExporter.java
        Percentile.java
        PipelineStats.java
        Precision.java
        PrintableHistogram.java
        Rate.java
        Ratio.java
        RecordingStat.java
        RecordingStatImpl.java
        RequestStats.java
        ReservoirSampler.java
        SampledStat.java
        Significance.java
        SlidingStats.java
        Stat.java
        StatImpl.java
        StatRegistry.java
        Statistics.java
        Stats.java
        StatsProvider.java
        TimeSeries.java
        TimeSeriesRepository.java
        TimeSeriesRepositoryImpl.java
        testing
        EasyMockTest.java
        TearDownRegistry.java
        runner
        AbortableListener.java
        AntJunitXmlReportListener.java
        ConsoleListener.java
        ForwardingListener.java
        JUnitConsoleRunner.java
        ListenerRegistry.java
        StreamSource.java
        Util.java
        text
        DefaultTextTokenizer.java
        TextTokenizer.java
        combiner
        DotContractedTokenCombiner.java
        EmoticonTokenCombiner.java
        ExtractorBasedTokenCombiner.java
        HashtagTokenCombiner.java
        LookAheadTokenCombiner.java
        PossessiveContractionTokenCombiner.java
        PunctuationExceptionCombiner.java
        StockTokenCombiner.java
        URLTokenCombiner.java
        UserNameTokenCombiner.java
        detector
        PunctuationDetector.java
        RegexDetector.java
        example
        TokenizerUsageExample.java
        extractor
        EmoticonExtractor.java
        HashtagExtractor.java
        RegexExtractor.java
        URLExtractor.java
        UserNameExtractor.java
        filter
        PunctuationFilter.java
        TokenFilter.java
        TokenTypeFilter.java
        token
        LuceneTokenizer2TokenStreamWrapper.java
        TokenGroupStream.java
        TokenProcessor.java
        TokenStream.java
        TokenStream2LuceneTokenizerWrapper.java
        TokenStreamAggregator.java
        TokenStreamDuplicator.java
        TokenizedCharSequence.java
        TokenizedCharSequenceStream.java
        attribute
        CharSequenceTermAttribute.java
        CharSequenceTermAttributeImpl.java
        PartOfSpeechAttribute.java
        PartOfSpeechAttributeImpl.java
        TokenGroupAttribute.java
        TokenGroupAttributeImpl.java
        TokenType.java
        TokenTypeAttribute.java
        TokenTypeAttributeImpl.java
        tokenizer
        LatinTokenizer.java
        RegexTokenizer.java
        util
        CharSequenceTermAttributeSerializer.java
        PositionIncrementAttributeSerializer.java
        TokenStreamSerializer.java
        TokenTypeAttributeSerializer.java
        thrift
        Config.java
        TResourceExhaustedException.java
        TTimeoutException.java
        TTransportConnection.java
        Thrift.java
        ThriftConnectionFactory.java
        ThriftException.java
        ThriftFactory.java
        ThriftServer.java
        Util.java
        callers
        Caller.java
        CallerDecorator.java
        DeadlineCaller.java
        DebugCaller.java
        RetryingCaller.java
        StatTrackingCaller.java
        ThriftCaller.java
        monitoring
        TMonitoredNonblockingServerSocket.java
        TMonitoredProcessor.java
        TMonitoredServerSocket.java
        testing
        MockTSocket.java
        TestThriftTypes.java
        text
        BaseContext.java
        MapContext.java
        PairContext.java
        SequenceContext.java
        StructContext.java
        TTextProtocol.java
        TypedParser.java
        tools
        AnsiColorDiagnosticListener.java
        Compiler.java
        DependencyTrackingFileManager.java
        DiagnosticFilters.java
        FilteredDiagnosticListener.java
        util
        BackoffDecider.java
        BackoffHelper.java
        BackoffStrategy.java
        BuildInfo.java
        Clock.java
        CommandExecutor.java
        DateUtils.java
        FileUtils.java
        KestrelConsumer.java
        ParsingUtil.java
        QueueDrainer.java
        Random.java
        RangeNormalizer.java
        RateLimitedCommandExecutor.java
        RetryingRunnable.java
        Sampler.java
        StartWatch.java
        Stat.java
        StateMachine.java
        Timer.java
        TruncatedBinaryBackoff.java
        caching
        Cache.java
        CachingMethodProxy.java
        LRUCache.java
        concurrent
        BackingOffFutureTask.java
        ExecutorServiceShutdown.java
        ForwardingExecutorService.java
        RetryingFutureTask.java
        logging
        ResourceLoggingConfigurator.java
        UnresettableLogManager.java
        testing
        FakeClock.java
        zookeeper
        Candidate.java
        CandidateImpl.java
        DistributedLock.java
        DistributedLockImpl.java
        Group.java
        Partitioner.java
        ServerSet.java
        ServerSetImpl.java
        SingletonService.java
        ZooKeeperClient.java
        ZooKeeperMap.java
        ZooKeeperNode.java
        ZooKeeperUtils.java
        guice
        ServerSetModule.java
        testing
        BaseZooKeeperTest.java
        ZooKeeperTestServer.java
        angrybird
        AngryBirdZooKeeperMain.java
        AngryBirdZooKeeperServer.java
        AngryBirdZooKeeperThriftService.java
- tests
  - java
    - com
      - twitter
        common
        application
        AppLauncherTest.java
        modules
        LifecycleModuleTest.java
        LocalServiceRegistryTest.java
        args
        ArgFiltersTest.java
        ArgScannerTest.java
        ArgTest.java
        ParsersTest.java
        argfilterstest
        ArgsRoot.java
        subpackageA
        ArgsA.java
        subsubpackage1
        ArgsA1.java
        subpackageB
        ArgsB.java
        subpackageBwithSuffix
        ArgsBWithSuffix.java
        parsers
        TimeDurationParserTest.java
        base
        CachingSupplierTest.java
        ClosuresTest.java
        ExceptionTransporterTest.java
        ExceptionalFunctionsTest.java
        MorePreconditionsTest.java
        MoreSuppliersTest.java
        collections
        BitsTest.java
        BoundedQueueTest.java
        Iterables2Test.java
        PairTest.java
        inject
        DefaultProviderTest.java
        io
        CodecTestUtilities.java
        CompatibilityCodecTest.java
        FileUtilsTest.java
        JsonCodecTest.java
        ThriftCodecTest.java
        logging
        BufferedLogTest.java
        LogFormatterTest.java
        LogUtilTest.java
        RootLogConfigTest.java
        memcached
        ThriftTranscoderTest.java
        metrics
        HistogramTest.java
        MetricsIT.java
        MetricsTest.java
        net
        InetSocketAddressHelperTest.java
        UrlHelperTest.java
        UrlResolverTest.java
        UrlResolverUtilTest.java
        UrlTokenizerUtilTest.java
        http
        handlers
        AssetHandlerTest.java
        LogPrinterTest.java
        StatSupplierTestBase.java
        TimeSeriesDataSourceTest.java
        VarsHandlerTest.java
        VarsJsonHandlerTest.java
        loadbalancing
        LeastConnectedStrategyTest.java
        LoadBalancerImplTest.java
        MarkDeadStrategyTest.java
        MarkDeadStrategyWithHostCheckTest.java
        RandomStrategyTest.java
        RoundRobinStrategyTest.java
        SubsetStrategyTest.java
        monitoring
        TrafficMonitorTest.java
        pool
        ConnectionPoolTest.java
        DynamicPoolTest.java
        objectsize
        ObjectSizeCalculatorTest.java
        quantity
        AmountTest.java
        stats
        ElapsedTest.java
        EntropyTest.java
        MovingAverageTest.java
        MovingWindowDeltaTest.java
        PercentileTest.java
        PipelineStatsTest.java
        PrintableHistogramTest.java
        RateTest.java
        ReservoirSamplerTest.java
        StatisticsTest.java
        StatsTest.java
        TimeSeriesRepositoryImplTest.java
        testing
        EasyMockTestTest.java
        TearDownRegistryTest.java
        text
        DefaultTextTokenizerTest.java
        combiner
        DotContractedTokenCombinerTest.java
        EmoticonTokenCombinerTest.java
        HashtagTokenCombinerTest.java
        PossessiveContractionTokenCombinerTest.java
        PunctuationExceptionCombinerTest.java
        StockTokenCombinerTest.java
        detector
        PunctuationDetectorTest.java
        extractor
        HashtagExtractorTest.java
        token
        TokenStreamAggregatorTest.java
        TokenStreamDuplicatorTest.java
        TokenizedCharSequenceStreamTest.java
        TokenizedCharSequenceTest.java
        attribute
        CharSequenceTermAttributeImplTest.java
        PartOfSpeechAttributeImplTest.java
        TokenGroupAttributeImplTest.java
        TokenTypeAttributeImplTest.java
        tokenizer
        LatinTokenizerTest.java
        RegexTokenizerTest.java
        util
        TokenStreamSerializerTest.java
        TokenTypeAttributeSerializerTest.java
        thrift
        ThriftConnectionFactoryTest.java
        ThriftFactoryTest.java
        ThriftServerTest.java
        ThriftTest.java
        callers
        AbstractCallerTest.java
        DeadlineCallerTest.java
        RetryingCallerTest.java
        text
        TTextProtocolTest.java
        tools
        AnsiColorDiagnosticListenerTest.java
        DiagnosticFiltersTest.java
        util
        BackoffDeciderTest.java
        BackoffHelperTest.java
        QueueDrainerTest.java
        RateLimitedCommandExecutorTest.java
        SamplerTest.java
        StateMachineTest.java
        TruncatedBinaryBackoffTest.java
        caching
        CachingMethodProxyTest.java
        LRUCacheTest.java
        testing
        FakeClockTest.java
        zookeeper
        CandidateImplTest.java
        DistributedLockTest.java
        GroupTest.java
        PartitionerTest.java
        ServerSetImplTest.java
        SingletonServiceTest.java
        ZooKeeperClientTest.java
        ZooKeeperMapTest.java
        ZooKeeperNodeTest.java
        ZooKeeperUtilsTest.java
        guice
        ServerSetModuleTest.java
        testing
        angrybird
        AngryBirdZooKeeperTest.java

// =================================================================================================
// Copyright 2011 Twitter, Inc.
// -------------------------------------------------------------------------------------------------
// Licensed under the Apache License, Version 2.0 (the "License");
// you may not use this work except in compliance with the License.
// You may obtain a copy of the License in the LICENSE file, or at:
//
//  http://www.apache.org/licenses/LICENSE-2.0
//
// Unless required by applicable law or agreed to in writing, software
// distributed under the License is distributed on an "AS IS" BASIS,
// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
// See the License for the specific language governing permissions and
// limitations under the License.
// =================================================================================================

package com.twitter.common.text.tokenizer;

import java.nio.CharBuffer;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import com.google.common.base.Preconditions;
import com.google.common.collect.Lists;

import com.twitter.common.text.token.TokenStream;
import com.twitter.common.text.token.attribute.CharSequenceTermAttribute;
import com.twitter.common.text.token.attribute.TokenType;
import com.twitter.common.text.token.attribute.TokenTypeAttribute;

/**
 * Tokenizes text based on regular expressions of word delimiters and punctuation characters.
 */
public class RegexTokenizer extends TokenStream {
  private Pattern delimiterPattern;
  private int punctuationGroup = 0;
  private boolean keepPunctuation = false;

  private List<CharBuffer> tokens;
  private List<TokenType> tokenTypes;
  private int tokenIndex = 0;

  private CharSequenceTermAttribute termAttr;
  private TokenTypeAttribute typeAttr;

  // please use Builder instead.
  protected RegexTokenizer() {
    termAttr = addAttribute(CharSequenceTermAttribute.class);
    typeAttr = addAttribute(TokenTypeAttribute.class);
  }

  protected void setDelimiterPattern(Pattern delimiterPattern) {
    this.delimiterPattern = delimiterPattern;
  }

  protected void setPunctuationGroupInDelimiterPattern(int group) {
    this.punctuationGroup = group;
  }

  protected void setKeepPunctuation(boolean keepPunctuation) {
    this.keepPunctuation = keepPunctuation;
  }

  @Override
  public boolean incrementToken() {
    if (tokenIndex >= tokens.size()) {
      return false;
    }

    CharBuffer token = tokens.get(tokenIndex);

    termAttr.setOffset(token.position());
    termAttr.setLength(token.limit() - token.position());
    typeAttr.setType(tokenTypes.get(tokenIndex));

    tokenIndex++;

    return true;
  }

  @Override
  public void reset(CharSequence input) {
    // reset termAttr
    termAttr.setCharSequence(input);

    // reset tokens
    tokens = Lists.newArrayList();
    tokenTypes = Lists.newArrayList();

    Matcher matcher = delimiterPattern.matcher(input);
    int lastMatch = 0;

    while (matcher.find()) {
      if (matcher.start() != lastMatch) {
        tokens.add(CharBuffer.wrap(input, lastMatch, matcher.start()));
        tokenTypes.add(TokenType.TOKEN);
      }

      if (keepPunctuation && matcher.start(punctuationGroup) >= 0) {
        tokens.add(CharBuffer.wrap(input, matcher.start(punctuationGroup),
            matcher.end(punctuationGroup)));
        tokenTypes.add(TokenType.PUNCTUATION);
      }

      lastMatch = matcher.end();
    }
    if (lastMatch < input.length()) {
      tokens.add(CharBuffer.wrap(input, lastMatch, input.length()));
      tokenTypes.add(TokenType.TOKEN);
    }

    // reset tokenIndex
    tokenIndex = 0;
  }

  /**
   * Builder for RegexTokenizer.
   *
   * @author Keita Fujii
   */
  public static final class Builder extends AbstractBuilder<RegexTokenizer, Builder> {
    public Builder() {
      super(new RegexTokenizer());
    }
  }

  public abstract static class
      AbstractBuilder<N extends RegexTokenizer, T extends AbstractBuilder<N, T>> {
    private final N tokenizer;

    protected AbstractBuilder(N tokenizer) {
      this.tokenizer = Preconditions.checkNotNull(tokenizer);
    }

    @SuppressWarnings("unchecked")
    protected T self() {
      return (T) this;
    }

    /**
     * Sets the Regex pattern of the delimiter.
     *
     * An input text is tokenized by the CharSequence
     * specified by this pattern.
     *
     * @param delimiterPattern Regex pattern of delimiter.
     * @return this Builder object
     */
    public T setDelimiterPattern(Pattern delimiterPattern) {
      tokenizer.setDelimiterPattern(delimiterPattern);
      return self();
    }

    /**
     * Sets the ID of the group in delimiterPattern that should
     * be handled as punctuation.
     * For example, you can set delimiterPattern as "([.,])\\s+"
     * and punctuationGroup as 1 in order to detect comma
     * and period as punctuations.
     *
     * @param group group ID of punctuation in delimiterPattern.
     * @return this Builder object
     */
    public T setPunctuationGroupInDelimiterPattern(int group) {
      tokenizer.setPunctuationGroupInDelimiterPattern(group);
      return self();
    }

    /**
     * Specifies whether to keep punctuations (which is specified
     * by delimiterPattern and punctuationGroupInDelimiterPattern)
     * in the output token stream.
     *
     * @param keepPunctuation true to keep delimiters. false otherwise.
     * @return this Builder object.
     */
    public T setKeepPunctuation(boolean keepPunctuation) {
      tokenizer.setKeepPunctuation(keepPunctuation);
      return self();
    }

    public N build() {
      return tokenizer;
    }
  }
}