ChineseWordTokenizer.java example

Explorer

kumo-master
- src
  - main
    - java
      - com
        kennycason
        kumo
        CollisionMode.java
        LayeredWordCloud.java
        ParallelLayeredWordCloud.java
        PolarBlendMode.java
        PolarWordCloud.java
        Word.java
        WordCloud.java
        WordFrequency.java
        bg
        Background.java
        CircleBackground.java
        PixelBoundryBackground.java
        RectangleBackground.java
        cli
        CliParameters.java
        KumoCli.java
        ParenthesisSerializer.java
        collide
        Collidable.java
        RectanglePixelCollidable.java
        checkers
        CollisionChecker.java
        RectangleCollisionChecker.java
        RectanglePixelCollisionChecker.java
        exception
        KumoException.java
        font
        FontWeight.java
        KumoFont.java
        scale
        FontScalar.java
        LinearFontScalar.java
        LogFontScalar.java
        SqrtFontScalar.java
        image
        AngleGenerator.java
        CollisionRaster.java
        ImageRotation.java
        nlp
        FrequencyAnalyzer.java
        filter
        CompositeFilter.java
        Filter.java
        StopWordFilter.java
        UrlFilter.java
        WordSizeFilter.java
        normalize
        BubbleTextNormalizer.java
        CharacterStrippingNormalizer.java
        LowerCaseNormalizer.java
        Normalizer.java
        StringToHexNormalizer.java
        TrimToEmptyNormalizer.java
        UpperCaseNormalizer.java
        UpsideDownNormalizer.java
        tokenizer
        ChineseWordTokenizer.java
        EnglishWordTokenizer.java
        NoTokenizer.java
        WhiteSpaceWordTokenizer.java
        WordTokenizer.java
        padding
        Padder.java
        RectanglePadder.java
        WordPixelPadder.java
        palette
        ColorPalette.java
        LinearGradientColorPalette.java
        placement
        LinearWordPlacer.java
        RTreeWordPlacer.java
        RectangleWordPlacer.java
        wordstart
        CenterWordStart.java
        RandomWordStart.java
        WordStartStrategy.java
  - test
    - java
      - com
        kennycason
        kumo
        DataRankWordCloudITest.java
        EmojiWordCloudITest.java
        IntegrationTest.java
        JPanelDemo.java
        LayeredWordCloudITest.java
        PolarWordCloudITest.java
        SimplyMeasuredWordCloudITest.java
        WordCloudITest.java
        WordCloudNormalizersITest.java
        WordCloudTest.java
        WordPlacerPerfTest.java
        cli
        KumoCliITest.java
        ParenthesisSerializerTest.java
        image
        CollisionRasterTest.java
        nlp
        tokenizer
        ChineseWordTokenizerTest.java
        WhiteSpaceWordTokenizerTest.java
        palette
        LinearGradientColorPaletteTest.java

package com.kennycason.kumo.nlp.tokenizer;

import org.languagetool.language.Chinese;
import org.languagetool.tokenizers.Tokenizer;

import java.util.ArrayList;
import java.util.List;

public class ChineseWordTokenizer implements WordTokenizer {

    private static final Chinese CHINESE = new Chinese();

    public ChineseWordTokenizer() {}

    @Override
    public List<String> tokenize(final String sentence) {
        final Tokenizer tokenizer = CHINESE.getWordTokenizer();
        final List<String> rawTokens = tokenizer.tokenize(sentence);
        final List<String> tokens = new ArrayList<>();
        for (final String rawToken : rawTokens) {   // parse parts-of-speech tags away (政府/n, 依照/p, 法律/n, 行/ng, 使/v, 执法/vn)
            if (rawToken.contains("/")) {
                tokens.add(rawToken.substring(0, rawToken.indexOf('/')));
            } else {
                tokens.add(rawToken);
            }
        }
        return tokens;
    }

}