ChineseWordTokenizer.java example

Explorer

cm-cloud-generator-master
- source
  - src
    - main
      - java
        CloudGenerator.java
        wordcloud
        CollisionMode.java
        LayeredWordCloud.java
        Word.java
        WordCloud.java
        WordFrequency.java
        bg
        Background.java
        CircleBackground.java
        PixelBoundryBackground.java
        RectangleBackground.java
        collide
        Collidable.java
        RectanglePixelCollidable.java
        Vector2d.java
        checkers
        CollisionChecker.java
        RectangleCollisionChecker.java
        RectanglePixelCollisionChecker.java
        font
        CloudFont.java
        FontWeight.java
        scale
        FontScalar.java
        LinearFontScalar.java
        SqrtFontScalar.java
        image
        AngleGenerator.java
        CollisionRaster.java
        ImageRotation.java
        nlp
        FrequencyAnalizer.java
        filter
        StopWordFilter.java
        sanitize
        BasicTextSanitizer.java
        Sanitizer.java
        tokenizer
        ChineseWordTokenizer.java
        WhiteSpaceWordTokenizer.java
        WordTokenizer.java
        trie
        StringTrie.java
        Trie.java
        padding
        Padder.java
        RectanglePadder.java
        WordPixelPadder.java
        palette
        ColorPalette.java
        tree
        QuadTree.java

package wordcloud.nlp.tokenizer;

import org.languagetool.language.Chinese;
import org.languagetool.tokenizers.Tokenizer;

import java.util.ArrayList;
import java.util.List;

public class ChineseWordTokenizer implements WordTokenizer {

    private static final Chinese CHINESE = new Chinese();

    public ChineseWordTokenizer() {}

    @Override
    public List<String> tokenize(String sentence) {
        final Tokenizer tokenizer = CHINESE.getWordTokenizer();
        final List<String> rawTokens = tokenizer.tokenize(sentence);
        final List<String> tokens = new ArrayList<>();
        for(String rawToken : rawTokens) {   // parse parts-of-speech tags away
            tokens.add(rawToken.substring(0, rawToken.indexOf('/')));
        }
        return tokens;
    }

}