EnglishTokenizer.java example

Explorer

clearnlp-master
- src
  - main
    - java
      - edu
        emory
        clir
        clearnlp
        bin
        C2DConvert.java
        NLPDecode.java
        NLPJackknife.java
        NLPTrain.java
        PBPostProcess.java
        PrintTree.java
        Tokenize.java
        Version.java
        helper
        AbstractClassify.java
        AbstractClassifyOneVsAll.java
        AbstractClassifyOnline.java
        AbstractNLPTrain.java
        AdaGradClassify.java
        LiblinearClassify.java
        classification
        configuration
        AbstractTrainerConfiguration.java
        AdaGradTrainerConfiguration.java
        DefaultTrainerConfiguration.java
        LiblinearTrainerConfiguration.java
        instance
        AbstractInstance.java
        AbstractInstanceCollector.java
        AbstractInstanceReader.java
        IntInstance.java
        SparseInstance.java
        SparseInstanceCollector.java
        SparseInstanceReader.java
        StringInstance.java
        StringInstanceCollector.java
        StringInstanceReader.java
        map
        FeatureMap.java
        LabelMap.java
        model
        AbstractModel.java
        SparseModel.java
        StringModel.java
        prediction
        AbstractPrediction.java
        StringPrediction.java
        trainer
        AbstractAdaGrad.java
        AbstractLiblinear.java
        AbstractOneVsAllTrainer.java
        AbstractOnlineTrainer.java
        AbstractTrainer.java
        AdaGradLR.java
        AdaGradSVM.java
        LiblinearL2LR.java
        LiblinearL2SVM.java
        RRM.java
        TrainerType.java
        vector
        AbstractFeatureVector.java
        AbstractWeightVector.java
        BinaryWeightVector.java
        MultiWeightVector.java
        SparseFeatureVector.java
        StringFeatureVector.java
        cluster
        AbstractCluster.java
        Cluster.java
        KmeansClustering.java
        SparseVector.java
        StringVector.java
        Term.java
        collection
        heap
        DoubleBinaryHeap.java
        list
        CharArrayList.java
        DoubleArrayList.java
        FloatArrayList.java
        IntArrayList.java
        SortedArrayList.java
        map
        CharCharHashMap.java
        CharIntHashMap.java
        CharObjectHashMap.java
        IntDoubleHashMap.java
        IntIntHashMap.java
        IntObjectHashMap.java
        ObjectDoubleHashMap.java
        ObjectIntHashMap.java
        StringIntMinimalPerfectHashMap.java
        ngram
        Bigram.java
        Unigram.java
        pair
        BooleanIntPair.java
        CharCharPair.java
        CharIntPair.java
        DoubleIntPair.java
        IntIntPair.java
        ObjectCharPair.java
        ObjectDoublePair.java
        ObjectIntPair.java
        Pair.java
        StringIntPair.java
        set
        CharHashSet.java
        DisjointSet.java
        IntHashSet.java
        stack
        IntPStack.java
        Stack.java
        tree
        AhoCorasick.java
        CharAffixTree.java
        PrefixNode.java
        PrefixTree.java
        triple
        BooleanIntIntTriple.java
        DoubleIntIntTriple.java
        ObjectIntIntTriple.java
        ObjectObjectDoubleTriple.java
        Triple.java
        component
        AbstractComponent.java
        AbstractStatisticalComponent.java
        configuration
        AbstractConfiguration.java
        ConfigurationXML.java
        DecodeConfiguration.java
        evaluation
        AbstractAccuracyEval.java
        AbstractEval.java
        AbstractF1Eval.java
        mode
        dep
        AbstractDEPParser.java
        DEPConfiguration.java
        DEPEval.java
        DEPFeatureExtractor.java
        DEPLabel.java
        DEPTrainer.java
        DEPTransition.java
        DefaultDEPParser.java
        EnglishDEPParser.java
        merge
        DEPMerge.java
        MergeArc.java
        state
        AbstractDEPState.java
        DEPStateBranch.java
        DEPStateGreedy.java
        morph
        AbstractMPAnalyzer.java
        DefaultMPAnalyzer.java
        EnglishMPAnalyzer.java
        ner
        AbstractNERecognizer.java
        DefaultNERecognizer.java
        DocumentFeatureExtractor.java
        EnglishNERecognizer.java
        NERConfiguration.java
        NEREval.java
        NERFeatureExtractor.java
        NERLexicon.java
        NERState.java
        NERTrainer.java
        pos
        AbstractPOSTagger.java
        DefaultPOSTagger.java
        EnglishPOSTagger.java
        POSConfiguration.java
        POSEval.java
        POSFeatureExtractor.java
        POSLexicon.java
        POSState.java
        POSTrainer.java
        srl
        AbstractSRLabeler.java
        EnglishSRLabeler.java
        SRLConfiguration.java
        SRLEval.java
        SRLFeatureExtractor.java
        SRLTrainer.java
        SRLTransition.java
        state
        AbstractSRLState.java
        EnglishSRLState.java
        state
        AbstractState.java
        AbstractTagState.java
        trainer
        AbstractNLPTrainer.java
        utils
        CFlag.java
        GlobalLexica.java
        NLPMode.java
        NLPUtils.java
        constituent
        CTLib.java
        CTLibEn.java
        CTNode.java
        CTReader.java
        CTTagEn.java
        CTTree.java
        conversion
        AbstractC2DConverter.java
        C2DInfo.java
        EnglishC2DConverter.java
        headrule
        HeadRule.java
        HeadRuleMap.java
        HeadTagSet.java
        dependency
        DEPFeat.java
        DEPLib.java
        DEPLibEn.java
        DEPNode.java
        DEPTagEn.java
        DEPTree.java
        dictionary
        AbstractDTTokenizer.java
        PathEnglishMPAnalyzer.java
        PathNamedEntity.java
        PathTokenizer.java
        english
        DTAbbreviation.java
        DTHyphen.java
        universal
        DTCompound.java
        DTCurrency.java
        DTEmoticon.java
        DTHtml.java
        DTUnit.java
        experiment
        AbstractArgsReader.java
        BrownClusterExtract.java
        CVCreate.java
        CreateCV.java
        DEPMerger.java
        HeaderReplacer.java
        Kaist2CoNLL.java
        MWEExtractor.java
        NLPMerge.java
        PBTagConvertor.java
        SymbolStrip.java
        Verbiverse.java
        WordEmbeddingExtract.java
        Z.java
        feature
        AbstractFeatureExtractor.java
        AbstractFeatureTemplate.java
        AbstractFeatureToken.java
        common
        CommonFeatureExtractor.java
        CommonFeatureTemplate.java
        CommonFeatureToken.java
        OrthographicType.java
        type
        DirectionType.java
        FeatureType.java
        FeatureXml.java
        FieldType.java
        RelationType.java
        SourceType.java
        lexicon
        dbpedia
        DBPediaInfo.java
        DBPediaInfoExtractor.java
        DBPediaInfoMap.java
        DBPediaOntologyExtractor.java
        DBPediaType.java
        DBPediaTypeMap.java
        DBPediaXML.java
        PrefixTreeExtender.java
        PrefixTreeGenerator.java
        propbank
        PBArgument.java
        PBInstance.java
        PBLib.java
        PBLocation.java
        PBReader.java
        PBTag.java
        frameset
        PBFFrameset.java
        PBFMap.java
        PBFPredicate.java
        PBFRole.java
        PBFRoleset.java
        PBFType.java
        PBFXml.java
        verbnet
        VNArgument.java
        VNClass.java
        VNFrame.java
        VNLib.java
        VNMap.java
        VNPredicate.java
        VNSemantics.java
        VNSyntax.java
        VNTag.java
        VNThematicRole.java
        VNXml.java
        wikipedia
        WikiIndex.java
        WikiIndexMap.java
        WikiPage.java
        WikiParagraph.java
        WikiPrint.java
        WikiPrintAll.java
        wordnet
        WNDataMap.java
        WNIndex.java
        WNIndexMap.java
        WNMap.java
        WNPOSTag.java
        WNPointer.java
        WNRelation.java
        WNSynset.java
        morphology
        AbstractAffixMatcher.java
        AbstractAffixReplacer.java
        english
        EnglishAffixMatcherFactory.java
        EnglishDerivation.java
        EnglishInflection.java
        EnglishSuffixMatcher.java
        EnglishSuffixReplacer.java
        ner
        BILOU.java
        NERInfo.java
        NERInfoList.java
        NERInfoSet.java
        NERLib.java
        NERTag.java
        pos
        POSLibEn.java
        POSTag.java
        POSTagEn.java
        reader
        AbstractReader.java
        LineReader.java
        RawReader.java
        TReader.java
        TSVReader.java
        srl
        SRLNode.java
        SRLTree.java
        matcher
        SRLArcMatcher.java
        SRLArcMatcherPattern.java
        SRLArcMatcherSet.java
        SRLArcMatcherTrue.java
        tokenization
        AbstractTokenizer.java
        EnglishTokenizer.java
        english
        ApostropheEnglishTokenizer.java
        util
        BinUtils.java
        CharTokenizer.java
        CharUtils.java
        DSUtils.java
        FileUtils.java
        HashUtils.java
        IOUtils.java
        Joiner.java
        MathUtils.java
        MetaUtils.java
        ObjectSizeFetcher.java
        PatternUtils.java
        Splitter.java
        StringUtils.java
        TFIDF.java
        XmlUtils.java
        adapter
        Adapter1.java
        arc
        AbstractArc.java
        DEPArc.java
        PBArc.java
        SRLArc.java
        constant
        CharConst.java
        MetaConst.java
        PatternConst.java
        StringConst.java
        io
        FileExtensionFilter.java
        lang
        ENUtils.java
        TLanguage.java
        vector
        Term.java
        VectorSpaceModel.java
  - test
    - java
      - edu
        emory
        clir
        clearnlp
        classification
        instance
        SparseInstanceCollectorTest.java
        StringInstanceCollectorTest.java
        model
        SparseModelTest.java
        StringModelTest.java
        vector
        SparseFeatureVectorTest.java
        StringFeatureVectorTest.java
        collection
        heap
        DoubleBinaryHeapTest.java
        list
        CharArrayListTest.java
        DoubleArrayListTest.java
        FloatArrayListTest.java
        IntArrayListTest.java
        SortedArrayListTest.java
        map
        CharCharHashMapTest.java
        CharObjectHashMapTest.java
        IntObjectHashMapTest.java
        ObjectDoubleHashMapTest.java
        ObjectIntHashMapTest.java
        ngram
        BigramTest.java
        UnigramTest.java
        set
        CharHashSetTest.java
        IntHashSetTest.java
        stack
        StackTest.java
        tree
        AffixTreeTest.java
        component
        configuration
        DEPConfigurationTest.java
        DecodeConfigurationTest.java
        POSConfigurationTest.java
        mode
        morph
        EnglishMPAnalyzerTest.java
        srl
        SRLEvalTest.java
        constant
        PatternConstTest.java
        constituent
        CTLibEnTest.java
        CTNodeTest.java
        CTReaderTest.java
        CTTreeTest.java
        dependency
        DEPFeatTest.java
        DEPMergeTest.java
        DEPNodeTest.java
        DEPReaderTest.java
        DEPTreeTest.java
        dictionary
        english
        DTAbbreviationTest.java
        DTHyphenTest.java
        universal
        DTCompoundTest.java
        DTCurrencyTest.java
        DTEmoticonTest.java
        DTHtmlTest.java
        DTUnitTest.java
        feature
        common
        CommonFeatureExtractorTest.java
        headrule
        HeadRuleMapTest.java
        HeadRuleTest.java
        HeadTagSetTest.java
        propbank
        PBArgumentTest.java
        PBInstanceTest.java
        PBLibTest.java
        PBLocationTest.java
        PBReaderTest.java
        tokenization
        EnglishTokenizerTest.java
        english
        ApostropheTokenizerTest.java
        util
        CharTokenizerTest.java
        CharUtilsTest.java
        DSUtilsTest.java
        FileUtilsTest.java
        MathUtilsTest.java
        MetaUtilsTest.java
        PatternUtilsTest.java
        SplitterTest.java
        StringUtilsTest.java
        arc
        SRLArcTest.java
        vector
        VectorSpaceModelTest.java
        verbnet
        VNCheck.java
        VNLibTest.java
        VNTagTest.java

/**
 * Copyright 2014, Emory University
 * 
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 * 
 *     http://www.apache.org/licenses/LICENSE-2.0
 * 
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package edu.emory.clir.clearnlp.tokenization;

import java.io.BufferedReader;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;

import edu.emory.clir.clearnlp.dictionary.english.DTAbbreviation;
import edu.emory.clir.clearnlp.dictionary.english.DTHyphen;
import edu.emory.clir.clearnlp.dictionary.universal.DTCompound;
import edu.emory.clir.clearnlp.tokenization.english.ApostropheEnglishTokenizer;
import edu.emory.clir.clearnlp.util.StringUtils;
import edu.emory.clir.clearnlp.util.constant.CharConst;
import edu.emory.clir.clearnlp.util.lang.TLanguage;

/**
 * @since 3.0.0
 * @author Jinho D. Choi ({@code jinho.choi@emory.edu})
 */
public class EnglishTokenizer extends AbstractTokenizer
{
	private final String[] L_BRACKETS = {"\"","(","{","["};
	private final String[] R_BRACKETS = {"\"",")","}","]"};
	
	private ApostropheEnglishTokenizer d_apostrophe;
	private DTAbbreviation             d_abbreviation;
	private DTCompound                 d_compound;
	private DTHyphen                   d_hyphen;
	
	public EnglishTokenizer()
	{
		d_apostrophe   = new ApostropheEnglishTokenizer();
		d_abbreviation = new DTAbbreviation();
		d_compound     = new DTCompound(TLanguage.ENGLISH);
		d_hyphen       = new DTHyphen();
	}
	
//	----------------------------------- Tokenize -----------------------------------
	
	@Override
	protected int adjustFirstNonSymbolGap(char[] cs, int beginIndex, String t)
	{
		return 0;
	}
	
	@Override
	protected int adjustLastSymbolSequenceGap(char[] cs,  int endIndex, String t)
	{
		char sym = cs[endIndex];
		
		if (sym == CharConst.PERIOD)
		{
			if (d_abbreviation.isAbbreviationEndingWithPeriod(StringUtils.toLowerCase(t)))
				return 1;
		}
		
		return 0;
	}

	@Override
	protected boolean preserveSymbolInBetween(char[] cs, int index)
	{
		return d_hyphen.preserveHyphen(cs, index);
	}
	
	@Override
	protected boolean tokenizeWordsMore(List<String> tokens, String original, String lower, char[] lcs)
	{
		return tokenize(tokens, original, lower, lcs, d_apostrophe) || tokenize(tokens, original, lower, lcs, d_compound); 
	}
	
//	----------------------------------- Segmentize -----------------------------------
	
	@Override
	public List<List<String>> segmentize(InputStream in)
	{
		List<List<String>> sentences = new ArrayList<>();
		int[] brackets = new int[R_BRACKETS.length];
		List<String> tokens = tokenize(in);
		int bIndex, i, size = tokens.size();
		boolean isTerminal = false;
		String token;
		
		for (i=0, bIndex=0; i<size; i++)
		{
			token = tokens.get(i);
			countBrackets(token, brackets);
			
			if (isTerminal || isFinalMarksOnly(token))
			{
				if (i+1 < size && isFollowedByBracket(tokens.get(i+1), brackets))
				{
					isTerminal = true;
					continue;
				}
				
				sentences.add(tokens.subList(bIndex, bIndex = i+1));
				isTerminal = false;
			}
		}
		
		if (bIndex < size)
			sentences.add(tokens.subList(bIndex, size));
		
		return sentences;
	}
		
	/** Called by {@link EnglishSegmenter#getSentencesRaw(BufferedReader)}. */
	private void countBrackets(String str, int[] brackets)
	{
		if (str.equals("\""))
			brackets[0] += (brackets[0] == 0) ? 1 : -1;
		else
		{
			int i, size = brackets.length;
			
			for (i=1; i<size; i++)
			{
				if      (str.equals(L_BRACKETS[i]))
					brackets[i]++;
				else if (str.equals(R_BRACKETS[i]))
					brackets[i]--; 
			}
		}
	}
	
	/** Called by {@link EnglishSegmenter#getSentencesRaw(BufferedReader)}. */
	private boolean isFollowedByBracket(String str, int[] brackets)
	{
		int i, size = R_BRACKETS.length;
		
		for (i=0; i<size; i++)
		{
			if (brackets[i] > 0 && str.equals(R_BRACKETS[i]))
				return true;
		}
		
		return false;
	}
}