ChineseStringUtils.java example

Explorer

stan-cn-com-master
- src
  - main
    - java
      - com
        guokr
        protocol
        Protocols.java
        xcf
        Handler.java
        XcfConnection.java
        XcfFileConnection.java
        XcfJarConnection.java
        util
        MultipleGZIPOutputStream.java
        Settings.java
      - edu
        stanford
        nlp
        classify
        AbstractLinearClassifierFactory.java
        AdaptedGaussianPriorObjectiveFunction.java
        BiasedLogConditionalObjectiveFunction.java
        BiasedLogisticObjectiveFunction.java
        Classifier.java
        ClassifierCreator.java
        ClassifierFactory.java
        CrossValidator.java
        Dataset.java
        GeneralDataset.java
        GeneralizedExpectationObjectiveFunction.java
        LinearClassifier.java
        LinearClassifierFactory.java
        LogConditionalObjectiveFunction.java
        LogPrior.java
        LogisticClassifier.java
        LogisticClassifierFactory.java
        LogisticObjectiveFunction.java
        NBLinearClassifierFactory.java
        PRCurve.java
        ProbabilisticClassifier.java
        ProbabilisticClassifierCreator.java
        RVFClassifier.java
        RVFDataset.java
        SVMLightClassifier.java
        SVMLightClassifierFactory.java
        SemiSupervisedLogConditionalObjectiveFunction.java
        WeightedDataset.java
        dcoref
        ACEMentionExtractor.java
        CoNLL2011DocumentReader.java
        CoNLLMentionExtractor.java
        Constants.java
        CorefChain.java
        CorefCluster.java
        CorefCoreAnnotations.java
        CorefMentionFinder.java
        CorefScorer.java
        Dictionaries.java
        Document.java
        MUCMentionExtractor.java
        Mention.java
        MentionExtractor.java
        MentionMatcher.java
        RuleBasedCorefMentionFinder.java
        Rules.java
        ScorerBCubed.java
        ScorerMUC.java
        ScorerPairwise.java
        Semantics.java
        SieveCoreferenceSystem.java
        SieveOptions.java
        SpeakerInfo.java
        sievepasses
        AliasMatch.java
        CorefDictionaryMatch.java
        DeterministicCorefSieve.java
        DiscourseMatch.java
        ExactStringMatch.java
        LexicalChainMatch.java
        MarkRole.java
        NameMatch.java
        NameMatchPrecise.java
        PreciseConstructs.java
        PronounMatch.java
        RelaxedExactStringMatch.java
        RelaxedHeadMatch.java
        StrictHeadMatch1.java
        StrictHeadMatch2.java
        StrictHeadMatch3.java
        StrictHeadMatch4.java
        fsm
        AutomatonMinimizer.java
        Block.java
        DFSA.java
        DFSAState.java
        DFSATransition.java
        FastExactAutomatonMinimizer.java
        QuasiDeterminizer.java
        TransducerGraph.java
        graph
        ConnectedComponents.java
        DijkstraShortestPath.java
        DirectedMultiGraph.java
        Graph.java
        ie
        AbstractSequenceClassifier.java
        AcquisitionsPrior.java
        ClassifierCombiner.java
        EmpiricalNERPrior.java
        EmpiricalNERPriorBIO.java
        EntityCachingAbstractSequencePrior.java
        EntityCachingAbstractSequencePriorBIO.java
        NERClassifierCombiner.java
        NERFeatureFactory.java
        NumberNormalizer.java
        QuantifiableEntityNormalizer.java
        SeminarsPrior.java
        UniformPrior.java
        crf
        CRFBiasedClassifier.java
        CRFClassifier.java
        CRFClassifierEvaluator.java
        CRFClassifierFloat.java
        CRFClassifierNoisyLabel.java
        CRFClassifierNonlinear.java
        CRFClassifierWithDropout.java
        CRFClassifierWithLOP.java
        CRFCliqueTree.java
        CRFDatum.java
        CRFFeatureExporter.java
        CRFLabel.java
        CRFLogConditionalObjectiveFloatFunction.java
        CRFLogConditionalObjectiveFunction.java
        CRFLogConditionalObjectiveFunctionForLOP.java
        CRFLogConditionalObjectiveFunctionNoisyLabel.java
        CRFLogConditionalObjectiveFunctionWithDropout.java
        CRFNonLinearLogConditionalObjectiveFunction.java
        CRFNonLinearSecondOrderLogConditionalObjectiveFunction.java
        CliquePotentialFunction.java
        FactorTable.java
        FloatFactorTable.java
        HasCliquePotentialFunction.java
        LabelDictionary.java
        LinearCliquePotentialFunction.java
        NoisyLabelLinearCliquePotentialFunction.java
        NonLinearCliquePotentialFunction.java
        NonLinearSecondOrderCliquePotentialFunction.java
        TestSequenceModel.java
        machinereading
        BasicEntityExtractor.java
        BasicRelationExtractor.java
        Extractor.java
        ExtractorMerger.java
        GenericDataSetReader.java
        LabelValidator.java
        MachineReading.java
        MachineReadingProperties.java
        RelationFeatureFactory.java
        ResultsPrinter.java
        common
        DomReader.java
        NoPunctuationHeadFinder.java
        SimpleTokenize.java
        StringDictionary.java
        domains
        ace
        AceReader.java
        reader
        AceCharSeq.java
        AceDocument.java
        AceDomReader.java
        AceElement.java
        AceEntity.java
        AceEntityMention.java
        AceEvent.java
        AceEventMention.java
        AceEventMentionArgument.java
        AceMention.java
        AceMentionArgument.java
        AceRelation.java
        AceRelationMention.java
        AceRelationMentionArgument.java
        AceSentenceSegmenter.java
        AceToken.java
        MatchException.java
        RobustTokenizer.java
        roth
        RothCONLL04Reader.java
        RothEntityExtractor.java
        structure
        AnnotationUtils.java
        EntityMention.java
        EntityMentionFactory.java
        EventMention.java
        ExtractionObject.java
        MachineReadingAnnotations.java
        RelationMention.java
        RelationMentionFactory.java
        Span.java
        ner
        CMMClassifier.java
        pascal
        AcronymModel.java
        Alignment.java
        AlignmentFactory.java
        CliqueTemplates.java
        DateTemplate.java
        DefaultTeXHyphenData.java
        ISODateInstance.java
        InfoTemplate.java
        PascalTemplate.java
        Prior.java
        RelationalModel.java
        TeXHyphenator.java
        regexp
        NumberSequenceClassifier.java
        RegexNERSequenceClassifier.java
        international
        Languages.java
        arabic
        ArabicMorphoFeatureSpecification.java
        Buckwalter.java
        pipeline
        DefaultLexicalMapper.java
        process
        ArabicDocumentReaderAndWriter.java
        ArabicLexer.java
        ArabicSegmenter.java
        ArabicSegmenterFeatureFactory.java
        ArabicTokenizer.java
        IOBUtils.java
        french
        FrenchMorphoFeatureSpecification.java
        FrenchUnknownWordSignatures.java
        process
        FrenchLexer.java
        FrenchTokenizer.java
        morph
        MorphoFeatureSpecification.java
        MorphoFeatures.java
        io
        BZip2PipedOutputStream.java
        EncodingFileReader.java
        EncodingPrintWriter.java
        ExtensionFileFilter.java
        FileSequentialCollection.java
        IOUtils.java
        Lexer.java
        NumberRangeFileFilter.java
        NumberRangesFileFilter.java
        PrintFile.java
        ReaderInputStream.java
        RegExFileFilter.java
        RuntimeIOException.java
        StringOutputStream.java
        TeeStream.java
        ling
        AnnotationLookup.java
        BasicDatum.java
        BasicDocument.java
        CategoryWordTag.java
        CategoryWordTagFactory.java
        ChineseCoreAnnotations.java
        CoreAnnotation.java
        CoreAnnotations.java
        CoreLabel.java
        Datum.java
        Document.java
        DocumentReader.java
        Featurizable.java
        HasCategory.java
        HasContext.java
        HasIndex.java
        HasLemma.java
        HasOffset.java
        HasTag.java
        HasWord.java
        IndexedWord.java
        Label.java
        LabelFactory.java
        Labeled.java
        LabeledWord.java
        MultiTokenTag.java
        RVFDatum.java
        Sentence.java
        StringLabel.java
        StringLabelFactory.java
        Tag.java
        TaggedWord.java
        TaggedWordFactory.java
        ValueLabel.java
        Word.java
        WordFactory.java
        WordLemmaTag.java
        WordLemmaTagFactory.java
        WordTag.java
        WordTagFactory.java
        tokensregex
        BasicSequenceMatchResult.java
        CoreMapExpressionExtractor.java
        CoreMapExpressionNodePattern.java
        CoreMapNodePattern.java
        CoreMapNodePatternTrigger.java
        CoreMapSequenceMatchAction.java
        CoreMapSequenceMatcher.java
        Env.java
        EnvLookup.java
        MatchedExpression.java
        MultiCoreMapNodePattern.java
        MultiNodePattern.java
        MultiPatternMatcher.java
        MultiWordStringMatcher.java
        NodePattern.java
        PhraseTable.java
        SequenceMatchAction.java
        SequenceMatchResult.java
        SequenceMatchRules.java
        SequenceMatcher.java
        SequencePattern.java
        TokenSequenceMatcher.java
        TokenSequencePattern.java
        matcher
        ApproxMatch.java
        BoundedCostOrderedMap.java
        ExactMatchCost.java
        Match.java
        MatchCostFunction.java
        MultiMatch.java
        TrieMap.java
        TrieMapMatcher.java
        parser
        ParseException.java
        SimpleCharStream.java
        Token.java
        TokenMgrError.java
        TokenSequenceParser.java
        TokenSequenceParserConstants.java
        TokenSequenceParserTokenManager.java
        types
        AssignableExpression.java
        Expression.java
        Expressions.java
        Tags.java
        Value.java
        ValueFunction.java
        ValueFunctions.java
        math
        ADMath.java
        ArrayMath.java
        DoubleAD.java
        NumberMatchingRegex.java
        SloppyMath.java
        maxent
        CGRunner.java
        DataGeneric.java
        Experiments.java
        Feature.java
        Features.java
        Problem.java
        iis
        LambdaSolve.java
        net
        ClasspathURLStreamHandler.java
        neural
        Embedding.java
        NeuralUtils.java
        SimpleTensor.java
        rnn
        RNNCoreAnnotations.java
        TopNGramRecord.java
        objectbank
        DelimitRegExIterator.java
        IdentityFunction.java
        IteratorFromReaderFactory.java
        LineIterator.java
        ObjectBank.java
        ReaderIteratorFactory.java
        ResettableReaderIteratorFactory.java
        XMLBeginEndIterator.java
        optimization
        AbstractCachingDiffFloatFunction.java
        AbstractCachingDiffFunction.java
        AbstractStochasticCachingDiffFunction.java
        AbstractStochasticCachingDiffUpdateFunction.java
        CGMinimizer.java
        CmdEvaluator.java
        DiffFloatFunction.java
        DiffFunction.java
        Evaluator.java
        FloatFunction.java
        Function.java
        GoldenSectionLineSearch.java
        HasEvaluators.java
        HasFeatureGrouping.java
        HasFloatInitial.java
        HasInitial.java
        HasRegularizerParamRange.java
        HybridMinimizer.java
        InefficientSGDMinimizer.java
        LineSearcher.java
        MemoryEvaluator.java
        Minimizer.java
        QNMinimizer.java
        ResultStoringFloatMonitor.java
        ResultStoringMonitor.java
        SGDMinimizer.java
        SGDToQNMinimizer.java
        SGDWithAdaGradAndFOBOS.java
        SMDMinimizer.java
        SQNMinimizer.java
        ScaledSGDMinimizer.java
        StochasticCalculateMethods.java
        StochasticDiffFunctionTester.java
        StochasticMinimizer.java
        parser
        KBestViterbiParser.java
        Parser.java
        ViterbiParser.java
        ViterbiParserWithOptions.java
        charniak
        CharniakParser.java
        CharniakScoredParsesReaderWriter.java
        common
        ArgUtils.java
        NoSuchParseException.java
        ParserAnnotations.java
        ParserConstraint.java
        ParserGrammar.java
        ParserQuery.java
        ParserUtils.java
        ParsingThreadsafeProcessor.java
        dvparser
        CacheParseHypotheses.java
        DVModel.java
        DVModelReranker.java
        DVParser.java
        DVParserCostAndGradient.java
        FilterConfusingRules.java
        UnknownWordPrinter.java
        lexparser
        AbstractDependencyGrammar.java
        AbstractTreeExtractor.java
        AbstractTreebankParserParams.java
        AbstractUnknownWordModelTrainer.java
        ArabicTreebankParserParams.java
        ArabicUnknownWordModel.java
        ArabicUnknownWordModelTrainer.java
        ArabicUnknownWordSignatures.java
        BaseLexicon.java
        BaseUnknownWordModel.java
        BaseUnknownWordModelTrainer.java
        BasicCategoryTagProjection.java
        BiLexPCFGParser.java
        BinaryGrammar.java
        BinaryGrammarExtractor.java
        BinaryHeadFinder.java
        BinaryRule.java
        BoundaryRemover.java
        CNFTransformers.java
        ChineseCharacterBasedLexicon.java
        ChineseLexicon.java
        ChineseLexiconAndWordSegmenter.java
        ChineseSimWordAvgDepGrammar.java
        ChineseTreebankParserParams.java
        ChineseUnknownWordModel.java
        ChineseUnknownWordModelTrainer.java
        CollinsPuncTransformer.java
        Debinarizer.java
        DependencyGrammar.java
        Edge.java
        EnglishTreebankParserParams.java
        EnglishUnknownWordModel.java
        EnglishUnknownWordModelTrainer.java
        EvalbFormatWriter.java
        EvaluateTreebank.java
        ExactGrammarCompactor.java
        ExhaustiveDependencyParser.java
        ExhaustivePCFGParser.java
        Extractor.java
        FactoredLexicon.java
        FactoredLexiconEvent.java
        FactoredParser.java
        FastFactoredParser.java
        FrenchTreebankParserParams.java
        FrenchUnknownWordModel.java
        FrenchUnknownWordModelTrainer.java
        GermanUnknownWordModel.java
        GermanUnknownWordModelTrainer.java
        GrammarCompactor.java
        GrammarProjection.java
        HTKLatticeReader.java
        HebrewTreebankParserParams.java
        Hook.java
        HookChart.java
        IntDependency.java
        IntTaggedWord.java
        Interner.java
        Item.java
        IterativeCKYPCFGParser.java
        Lattice.java
        LatticeEdge.java
        LatticeScorer.java
        LexicalizedParser.java
        LexicalizedParserQuery.java
        Lexicon.java
        LinearGrammarSmoother.java
        MLEDependencyGrammar.java
        MLEDependencyGrammarExtractor.java
        NegraPennCollinizer.java
        NegraPennTreebankParserParams.java
        NodePruner.java
        NullGrammarProjection.java
        Options.java
        OutsideRuleFilter.java
        ParentAnnotationStats.java
        ParseFiles.java
        ParserUtils.java
        PostSplitter.java
        ProjectionScorer.java
        RandomWalk.java
        Reranker.java
        RerankerQuery.java
        RerankingParserQuery.java
        Rule.java
        Scorer.java
        SisterAnnotationStats.java
        SplittingGrammarExtractor.java
        TagProjection.java
        TestOptions.java
        TestTagProjection.java
        TrainOptions.java
        TreeAnnotator.java
        TreeAnnotatorAndBinarizer.java
        TreeBinarizer.java
        TreeCollinizer.java
        TreebankAnnotator.java
        TreebankLangParserParams.java
        TwinScorer.java
        UnaryGrammar.java
        UnaryRule.java
        UnknownGTTrainer.java
        UnknownWordModel.java
        UnknownWordModelTrainer.java
        metrics
        AbstractEval.java
        BestOfTopKEval.java
        Eval.java
        Evalb.java
        EvalbByCat.java
        FilteredEval.java
        LeafAncestorEval.java
        ParserQueryEval.java
        TaggingEval.java
        TopMatchEval.java
        TreeSpanScoring.java
        UnlabeledAttachmentEval.java
        shiftreduce
        BasicFeatureFactory.java
        BinaryTransition.java
        CombinationFeatureFactory.java
        CompoundUnaryTransition.java
        CreateTransitionSequence.java
        DistsimFeatureFactory.java
        FeatureFactory.java
        FinalizeTransition.java
        IdleTransition.java
        Oracle.java
        OracleTransition.java
        ShiftReduceOptions.java
        ShiftReduceParser.java
        ShiftReduceParserQuery.java
        ShiftReduceTestOptions.java
        ShiftReduceTrainOptions.java
        ShiftReduceUtils.java
        ShiftTransition.java
        State.java
        Transition.java
        TreeRecorder.java
        UnaryTransition.java
        Weight.java
        tools
        PunctEquivalenceClasser.java
        patterns
        surface
        AnnotatedTextReader.java
        ApplyPatternsMulti.java
        ConstantsAndVariables.java
        CreatePatterns.java
        Data.java
        EditDistanceDamerauLevenshteinLike.java
        GetPatternsFromDataMultiClass.java
        InvertedIndexByTokens.java
        LearnImportantFeatures.java
        PatternToken.java
        PatternsAnnotations.java
        PhraseScorer.java
        ScorePatterns.java
        ScorePatternsF1.java
        ScorePatternsFreqBased.java
        ScorePatternsRatioModifiedFreq.java
        ScorePhrases.java
        ScorePhrasesAverageFeatures.java
        SurfacePattern.java
        pipeline
        Annotation.java
        AnnotationPipeline.java
        AnnotationSerializer.java
        Annotator.java
        AnnotatorFactory.java
        AnnotatorPool.java
        CharniakParserAnnotator.java
        ChineseSegmenterAnnotator.java
        ChunkAnnotationUtils.java
        CleanXmlAnnotator.java
        CoreMapAggregator.java
        CoreMapAttributeAggregator.java
        CustomAnnotationSerializer.java
        DefaultPaths.java
        DeterministicCorefAnnotator.java
        GenderAnnotator.java
        LabeledChunkIdentifier.java
        MorphaAnnotator.java
        NERCombinerAnnotator.java
        POSTaggerAnnotator.java
        PTBTokenizerAnnotator.java
        ParserAnnotator.java
        ParserAnnotatorUtils.java
        RegexNERAnnotator.java
        RelationExtractorAnnotator.java
        Requirement.java
        SentimentAnnotator.java
        StanfordCoreNLP.java
        TextOutputter.java
        TokenizerAnnotator.java
        TokensRegexAnnotator.java
        TokensRegexNERAnnotator.java
        TrueCaseAnnotator.java
        WhitespaceTokenizerAnnotator.java
        WordsToSentencesAnnotator.java
        XMLOutputter.java
        process
        AbstractListProcessor.java
        AbstractTokenizer.java
        Americanize.java
        AmericanizeFunction.java
        ChineseDocumentToSentenceProcessor.java
        CoreLabelTokenFactory.java
        CoreTokenFactory.java
        DistSimClassifier.java
        DocumentPreprocessor.java
        DocumentProcessor.java
        JFlexDummyLexer.java
        LexedTokenFactory.java
        LexerTokenizer.java
        ListProcessor.java
        LowercaseAndAmericanizeFunction.java
        LowercaseFunction.java
        Morpha.java
        Morphology.java
        PTB2TextLexer.java
        PTBEscapingProcessor.java
        PTBLexer.java
        PTBTokenizer.java
        SerializableFunction.java
        StripTagsProcessor.java
        Tokenizer.java
        TokenizerAdapter.java
        TokenizerFactory.java
        TransformXML.java
        WhitespaceLexer.java
        WhitespaceTokenizer.java
        WordSegmenter.java
        WordSegmentingTokenizer.java
        WordShapeClassifier.java
        WordToSentenceProcessor.java
        WordTokenFactory.java
        semgraph
        SemanticGraph.java
        SemanticGraphCoreAnnotations.java
        SemanticGraphEdge.java
        SemanticGraphFactory.java
        SemanticGraphFormatter.java
        sentiment
        BuildBinarizedDataset.java
        CollapseUnaryTransformer.java
        Evaluate.java
        RNNOptions.java
        RNNTestOptions.java
        RNNTrainOptions.java
        ReadSentimentDataset.java
        SentimentCoreAnnotations.java
        SentimentCostAndGradient.java
        SentimentModel.java
        SentimentPipeline.java
        SentimentTraining.java
        SentimentUtils.java
        sequences
        BeamBestSequenceFinder.java
        BestSequenceFinder.java
        Clique.java
        CoNLLDocumentReaderAndWriter.java
        ColumnDocumentReaderAndWriter.java
        CoolingSchedule.java
        DocumentReaderAndWriter.java
        ExactBestSequenceFinder.java
        FactoredSequenceListener.java
        FactoredSequenceModel.java
        FeatureFactory.java
        KBestSequenceFinder.java
        LatticeWriter.java
        ObjectBankWrapper.java
        PlainTextDocumentReaderAndWriter.java
        SeqClassifierFlags.java
        SequenceGibbsSampler.java
        SequenceListener.java
        SequenceModel.java
        SequenceSampler.java
        TrueCasingForNISTDocumentReaderAndWriter.java
        ViterbiSearchGraphBuilder.java
        stats
        AbstractCounter.java
        AccuracyStats.java
        ClassicCounter.java
        Counter.java
        Counters.java
        Distribution.java
        EquivalenceClasser.java
        GeneralizedCounter.java
        IntCounter.java
        MultiClassAccuracyStats.java
        MultiClassChunkEvalStats.java
        MultiClassPrecisionRecallExtendedStats.java
        MultiClassPrecisionRecallStats.java
        PrecisionRecallStats.java
        ProbabilityDistribution.java
        Sampler.java
        Scorer.java
        SimpleGoodTuring.java
        TwoDimensionalCounter.java
        TwoDimensionalCounterInterface.java
        TwoDimensionalIntCounter.java
        tagger
        common
        Tagger.java
        io
        TSVTaggedFileReader.java
        TaggedFileReader.java
        TaggedFileRecord.java
        TextTaggedFileReader.java
        TreeTaggedFileReader.java
        maxent
        ASBCunkDict.java
        AmbiguityClass.java
        AmbiguityClasses.java
        CTBunkDict.java
        CountWrapper.java
        CtbDict.java
        DataWordTag.java
        Dictionary.java
        DictionaryExtractor.java
        Distsim.java
        Extractor.java
        ExtractorDistsim.java
        ExtractorDistsimConjunction.java
        ExtractorFrames.java
        ExtractorFramesRare.java
        ExtractorVerbalVBNZero.java
        Extractors.java
        FeatureKey.java
        History.java
        HistoryTable.java
        LambdaSolveTagger.java
        MaxentTagger.java
        PairsHolder.java
        ReadDataTagged.java
        TTags.java
        TagCount.java
        TaggerConfig.java
        TaggerExperiments.java
        TaggerFeature.java
        TaggerFeatures.java
        TemplateHash.java
        TestClassifier.java
        TestSentence.java
        time
        GUTimeAnnotator.java
        GenericTimeExpressionPatterns.java
        HeidelTimeAnnotator.java
        JodaTimeUtils.java
        JollyDayHolidays.java
        Options.java
        SUTime.java
        SUTimeMain.java
        TimeAnnotations.java
        TimeAnnotator.java
        TimeExpression.java
        TimeExpressionExtractor.java
        TimeExpressionExtractorFactory.java
        TimeExpressionExtractorImpl.java
        TimeExpressionPatterns.java
        TimeFormatter.java
        Timex.java
        XMLUtils.java
        trees
        AbstractCollinsHeadFinder.java
        AbstractTreebankLanguagePack.java
        BasicCategoryTreeTransformer.java
        BobChrisTreeNormalizer.java
        CollinsHeadFinder.java
        CollocationFinder.java
        CompositeTreeTransformer.java
        CompositeTreebank.java
        Constituent.java
        ConstituentFactory.java
        CoordinationTransformer.java
        CopulaHeadFinder.java
        DateTreeTransformer.java
        DeepTree.java
        Dependencies.java
        Dependency.java
        DependencyFactory.java
        DependencyPrinter.java
        DependencyReader.java
        DependencyTreeTransformer.java
        DependencyTyper.java
        DiskTreebank.java
        EnglishGrammaticalRelations.java
        EnglishGrammaticalStructure.java
        EnglishGrammaticalStructureFactory.java
        EnglishPTBTreebankCorrector.java
        FilteringTreeReader.java
        FilteringTreebank.java
        GrammaticalRelation.java
        GrammaticalStructure.java
        GrammaticalStructureFactory.java
        GrammaticalStructureFromDependenciesFactory.java
        HasParent.java
        HeadFinder.java
        Labeled.java
        LabeledConstituent.java
        LabeledScoredConstituent.java
        LabeledScoredConstituentFactory.java
        LabeledScoredTreeFactory.java
        LabeledScoredTreeNode.java
        LabeledScoredTreeReaderFactory.java
        LeftHeadFinder.java
        LengthTreeFilter.java
        MemoryTreebank.java
        ModCollinsHeadFinder.java
        NPTmpRetainingTreeNormalizer.java
        NamedDependency.java
        PennTreeReader.java
        PennTreeReaderFactory.java
        PennTreebankLanguagePack.java
        PennTreebankTokenizer.java
        QPTreeTransformer.java
        RecursiveTreeTransformer.java
        SemanticHeadFinder.java
        SimpleConstituent.java
        SimpleConstituentFactory.java
        SimpleTree.java
        SimpleTreeFactory.java
        Span.java
        SynchronizedTreeTransformer.java
        TransformingTreebank.java
        Tree.java
        TreeCoreAnnotations.java
        TreeFactory.java
        TreeFilters.java
        TreeFunctions.java
        TreeGraph.java
        TreeGraphNode.java
        TreeGraphNodeFactory.java
        TreeLeafLabelTransformer.java
        TreeLemmatizer.java
        TreeLengthComparator.java
        TreeNormalizer.java
        TreePrint.java
        TreeReader.java
        TreeReaderFactory.java
        TreeTokenizerFactory.java
        TreeTransformer.java
        TreeVisitor.java
        Treebank.java
        TreebankFactory.java
        TreebankLanguagePack.java
        TreebankTransformer.java
        Treebanks.java
        Trees.java
        TypedDependency.java
        UnnamedConcreteDependency.java
        UnnamedDependency.java
        WordNetConnection.java
        WordStemmer.java
        international
        arabic
        ATBTreeUtils.java
        ArabicHeadFinder.java
        ArabicTreeNormalizer.java
        ArabicTreeReaderFactory.java
        ArabicTreebankLanguagePack.java
        ArabicTreebankTokenizer.java
        french
        DybroFrenchHeadFinder.java
        FrenchHeadFinder.java
        FrenchTreeNormalizer.java
        FrenchTreeReaderFactory.java
        FrenchTreebankLanguagePack.java
        FrenchXMLTreeReader.java
        FrenchXMLTreeReaderFactory.java
        hebrew
        HebrewTreeNormalizer.java
        HebrewTreeReaderFactory.java
        HebrewTreebankLanguagePack.java
        negra
        NegraHeadFinder.java
        NegraLabel.java
        NegraPennLanguagePack.java
        NegraPennLexer.java
        NegraPennTokenizer.java
        NegraPennTreeNormalizer.java
        NegraPennTreeReaderFactory.java
        pennchinese
        BikelChineseHeadFinder.java
        CEDict.java
        CHTBLexer.java
        CHTBTokenizer.java
        CTBErrorCorrectingTreeNormalizer.java
        CTBTreeReaderFactory.java
        ChineseCollinizer.java
        ChineseEnglishWordMap.java
        ChineseEscaper.java
        ChineseGrammaticalRelations.java
        ChineseGrammaticalStructure.java
        ChineseGrammaticalStructureFactory.java
        ChineseHeadFinder.java
        ChineseSemanticHeadFinder.java
        ChineseTreebankLanguagePack.java
        ChineseUtils.java
        FragDiscardingPennTreeReader.java
        RadicalMap.java
        SunJurafskyChineseHeadFinder.java
        treebank
        Mapper.java
        tregex
        CoordinationPattern.java
        DescriptionPattern.java
        Macros.java
        ParseException.java
        Relation.java
        SimpleCharStream.java
        Token.java
        TokenMgrError.java
        TregexMatcher.java
        TregexParseException.java
        TregexParser.java
        TregexParserConstants.java
        TregexParserTokenManager.java
        TregexPattern.java
        TregexPatternCompiler.java
        VariableStrings.java
        tsurgeon
        AdjoinNode.java
        AdjoinToFootNode.java
        AdjoinToHeadNode.java
        AuxiliaryTree.java
        CoindexNodes.java
        CoindexationGenerator.java
        CreateSubtreeNode.java
        DeleteNode.java
        ExciseNode.java
        FetchNode.java
        HoldTreeNode.java
        IfExistsNode.java
        InsertNode.java
        JJTTsurgeonParserState.java
        MoveNode.java
        Node.java
        ParseException.java
        PruneNode.java
        RelabelNode.java
        ReplaceNode.java
        SimpleCharStream.java
        SimpleNode.java
        Token.java
        TokenMgrError.java
        TreeLocation.java
        Tsurgeon.java
        TsurgeonParseException.java
        TsurgeonParser.java
        TsurgeonParserConstants.java
        TsurgeonParserTokenManager.java
        TsurgeonParserTreeConstants.java
        TsurgeonPattern.java
        TsurgeonPatternRoot.java
        TsurgeonRuntimeException.java
        util
        AbstractIterator.java
        ArrayCoreMap.java
        ArrayHeap.java
        ArrayMap.java
        ArraySet.java
        ArrayStringFilter.java
        ArrayUtils.java
        Beam.java
        BinaryHeapPriorityQueue.java
        ByteStreamGobbler.java
        CacheMap.java
        Characters.java
        CollectionFactory.java
        CollectionUtils.java
        CollectionValuedMap.java
        Comparators.java
        ConcatenationIterator.java
        ConfusionMatrix.java
        ConvertByteArray.java
        CoreMap.java
        DataFilePaths.java
        DeltaCollectionValuedMap.java
        DeltaIndex.java
        DeltaMap.java
        EditDistance.java
        ErasureUtils.java
        Execution.java
        Factory.java
        FilePathProcessor.java
        FileProcessor.java
        Filter.java
        FilteredIterator.java
        Filters.java
        FixedPrioritiesPriorityQueue.java
        Function.java
        FuzzyInterval.java
        Generics.java
        HasInterval.java
        HashIndex.java
        HashableCoreMap.java
        Heap.java
        IdentityHashSet.java
        Index.java
        IntPair.java
        IntQuadruple.java
        IntTriple.java
        IntTuple.java
        IntUni.java
        Interner.java
        Interval.java
        IntervalTree.java
        IterableIterator.java
        Iterables.java
        MapFactory.java
        Maps.java
        MemoryMonitor.java
        MetaClass.java
        MutableDouble.java
        MutableInteger.java
        MutableLong.java
        PaddedList.java
        Pair.java
        PriorityQueue.java
        PropertiesUtils.java
        Quadruple.java
        ReflectionLoading.java
        RuntimeInterruptedException.java
        Scored.java
        ScoredComparator.java
        ScoredObject.java
        Sets.java
        StreamGobbler.java
        StringParsingTask.java
        StringUtils.java
        SystemUtils.java
        ThreeDimensionalMap.java
        Timing.java
        TreeShapedStack.java
        Triple.java
        TwoDimensionalCollectionValuedMap.java
        TwoDimensionalMap.java
        TwoDimensionalSet.java
        TypesafeMap.java
        UTF8EquivalenceFunction.java
        ValuedInterval.java
        XMLUtils.java
        concurrent
        MulticoreWrapper.java
        SynchronizedInterner.java
        ThreadsafeProcessor.java
        logging
        Color.java
        JavaUtilLoggingAdaptor.java
        LogRecordHandler.java
        NewlineLogFormatter.java
        OutputHandler.java
        PrettyLoggable.java
        PrettyLogger.java
        RedirectOutputHandler.java
        Redwood.java
        RedwoodConfiguration.java
        RedwoodPrintStream.java
        RepeatedRecordHandler.java
        RerouteChannel.java
        StanfordRedwoodConfiguration.java
        Style.java
        VisibilityHandler.java
        wordseg
        ChineseDictionary.java
        ChineseSegmenterFeatureFactory.java
        ChineseStringUtils.java
        CorpusChar.java
        CorpusDictionary.java
        Gale2007ChineseSegmenterFeatureFactory.java
        NonDict2.java
        Sighan2005DocumentReaderAndWriter.java
        TagAffixDetector.java
        affDict.java

package edu.stanford.nlp.wordseg;

import java.io.File;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import static edu.stanford.nlp.trees.international.pennchinese.ChineseUtils.WHITE;
import static edu.stanford.nlp.trees.international.pennchinese.ChineseUtils.WHITEPLUS;

import edu.stanford.nlp.io.EncodingPrintWriter;
import edu.stanford.nlp.ling.CoreLabel;
import edu.stanford.nlp.ling.CoreAnnotations;
import edu.stanford.nlp.objectbank.ObjectBank;
import edu.stanford.nlp.sequences.SeqClassifierFlags;
// TODO: ChineseStringUtils and ChineseUtils should be put somewhere common
import edu.stanford.nlp.trees.international.pennchinese.ChineseUtils;

public class ChineseStringUtils {
  private static final boolean DEBUG = false;
  private static final boolean DEBUG_MORE = false;

  public static boolean isLetterASCII(char c) {
    return c <= 127 && Character.isLetter(c);
  }

  public static String combineSegmentedSentence(List<CoreLabel> doc,
                                                SeqClassifierFlags flags) {
      // Hey all: Some of the code that was previously here for
      // whitespace normalization was a bit hackish as well as
      // obviously broken for some test cases. So...I went ahead and
      // re-wrote it.
      //
      // Also, putting everything into 'testContent', is a bit wasteful
      // memory wise. But, it's on my near-term todo list to
      // code something thats a bit more memory efficient.
      //
      // Finally, if these changes ended up breaking anything
      // just e-mail me (cerd@colorado.edu), and I'll try to fix it
      // asap  -cer (6/14/2006)

      /* Sun Oct  7 19:55:09 2007
         I'm actually not using "testContent" anymore.
         I think it's broken because the whole test file has been read over and over again,
         tand the testContentIdx has been set to 0 every time, while "doc" is moving
         line by line!!!!
         -pichuan
      */

      int testContentIdx=0;
      StringBuilder ans = new StringBuilder(); // the actual output we will return
      StringBuilder unmod_ans = new StringBuilder();  // this is the original output from the CoreLabel
      StringBuilder unmod_normed_ans = new StringBuilder();  // this is the original output from the CoreLabel
      CoreLabel wi = null;
      for (Iterator<CoreLabel> wordIter = doc.iterator(); wordIter.hasNext();
           testContentIdx++) {
        CoreLabel pwi = wi;
        wi = wordIter.next();
        boolean originalWhiteSpace = "1".equals(wi.get(CoreAnnotations.SpaceBeforeAnnotation.class));

        //  if the CRF says "START" (segmented), and it's not the first word..
        if (wi.get(CoreAnnotations.AnswerAnnotation.class).equals("1") && !("0".equals(String.valueOf(wi.get(CoreAnnotations.PositionAnnotation.class))))) {
          // check if we need to preserve the "no space" between English
          // characters
          boolean seg = true; // since it's in the "1" condition.. default
                              // is to seg
          if (flags.keepEnglishWhitespaces) {
            if (testContentIdx > 0) {
              char prevChar = pwi.get(CoreAnnotations.OriginalCharAnnotation.class).charAt(0);
              char currChar = wi.get(CoreAnnotations.OriginalCharAnnotation.class).charAt(0);
              if (isLetterASCII(prevChar) && isLetterASCII(currChar)) {
                // keep the "non space" before wi
                if (! originalWhiteSpace) {
                  seg = false;
                }
              }
            }
          }

          // if there was space and keepAllWhitespaces is true, restore it no matter what
          if (flags.keepAllWhitespaces && originalWhiteSpace) {
              seg = true;
          }
          if (seg) {
            if (originalWhiteSpace) {
              ans.append('\u1924'); // a pretty Limbu character which is later changed to a space
            } else {
              ans.append(' ');
            }
          }
          unmod_ans.append(' ');
          unmod_normed_ans.append(' ');
        } else {
          boolean seg = false; // since it's in the "0" condition.. default
          // Changed after conversation with Huihsin.
          //
          // Decided that all words consisting of English/ASCII characters
          // should be separated from the surrounding Chinese characters. -cer
          /* Sun Oct  7 22:14:46 2007 (pichuan)
             the comment above was from DanC.
             I changed the code but I think I'm doing the same thing here.
          */
          if (testContentIdx > 0) {
            char prevChar = pwi.get(CoreAnnotations.OriginalCharAnnotation.class).charAt(0);
            char currChar = wi.get(CoreAnnotations.OriginalCharAnnotation.class).charAt(0);
            if ((prevChar < (char)128) != (currChar < (char)128)) {
              if (ChineseUtils.isNumber(prevChar) && ChineseUtils.isNumber(currChar)) {
                // cdm: you would get here if you had an ASCII number next to a
                // Unihan range number.  Does that happen?  It presumably
                // shouldn't do any harm.... [cdm, oct 2007]
              } else if (flags.separateASCIIandRange) {
                seg = true;
              }
            }
          }

          if (flags.keepEnglishWhitespaces) {
            if (testContentIdx > 0) {
              char prevChar = pwi.get(CoreAnnotations.OriginalCharAnnotation.class).charAt(0);
              char currChar = wi.get(CoreAnnotations.OriginalCharAnnotation.class).charAt(0);
              if (isLetterASCII(prevChar) && isLetterASCII(currChar) ||
                  isLetterASCII(prevChar) &&  ChineseUtils.isNumber(currChar) ||
                  ChineseUtils.isNumber(prevChar) && isLetterASCII(currChar)) {
                // keep the "space" before wi
                if ("1".equals(wi.get(CoreAnnotations.SpaceBeforeAnnotation.class))) {
                  seg = true;
                }
              }
            }
          }

          // if there was space and keepAllWhitespaces is true, restore it no matter what
          if (flags.keepAllWhitespaces) {
            if (!("0".equals(String.valueOf(wi.get(CoreAnnotations.PositionAnnotation.class))))
                && "1".equals(wi.get(CoreAnnotations.SpaceBeforeAnnotation.class))) {
              seg = true;
            }
          }
          if (seg) {
            if (originalWhiteSpace) {
              ans.append('\u1924'); // a pretty Limbu character which is later changed to a space
            } else {
              ans.append(' ');
            }
          }
        }
        ans.append(wi.get(CoreAnnotations.OriginalCharAnnotation.class));
        unmod_ans.append(wi.get(CoreAnnotations.OriginalCharAnnotation.class));
        unmod_normed_ans.append(wi.get(CoreAnnotations.CharAnnotation.class));
      }
      String ansStr = ans.toString();
      if (flags.sighanPostProcessing) {
        if ( ! flags.keepAllWhitespaces) {
          // remove the Limbu char now, so it can be deleted in postprocessing
          ansStr = ansStr.replaceAll("\u1924", " ");
        }
        ansStr = postProcessingAnswer(ansStr, flags);
      }
      // definitely remove the Limbu char if it survived till now
      ansStr = ansStr.replaceAll("\u1924", " ");
      if (DEBUG) {
        EncodingPrintWriter.err.println("CLASSIFIER(normed): " + unmod_normed_ans, "UTF-8");
        EncodingPrintWriter.err.println("CLASSIFIER: " + unmod_ans, "UTF-8");
        EncodingPrintWriter.err.println("POSTPROCESSED: "+ans, "UTF-8");
      }
      return ansStr;
  }


  /**
   * post process the answer to be output
   * these post processing are not dependent on original input
   */
  private static String postProcessingAnswer(String ans, SeqClassifierFlags flags) {
    if (flags.useHk) {
      //System.err.println("Using HK post processing.");
      return postProcessingAnswerHK(ans);
    } else if (flags.useAs) {
      //System.err.println("Using AS post processing.");
      return postProcessingAnswerAS(ans);
    } else if (flags.usePk) {
      //System.err.println("Using PK post processing.");
      return postProcessingAnswerPK(ans,flags.keepAllWhitespaces);
    } else if (flags.useMsr) {
      //System.err.println("Using MSR post processing.");
      return postProcessingAnswerMSR(ans);
    } else {
      //System.err.println("Using CTB post processing.");
      return postProcessingAnswerCTB(ans, flags.keepAllWhitespaces, flags.suppressMidDotPostprocessing);
    }
  }

  static Pattern[] puncsPat = null;
  static Character[] puncs = null;

  private static String separatePuncs(String ans) {
    /* make sure some punctuations will only appeared as one word (segmented from others). */
    /* These punctuations are derived directly from the training set. */
    if (puncs == null) {
      puncs = new Character[]{'\u3001', '\u3002', '\u3003', '\u3008', '\u3009', '\u300a', '\u300b',
               '\u300c', '\u300d', '\u300e', '\u300f', '\u3010', '\u3011', '\u3014',
               '\u3015'};
    }
    if (puncsPat == null) {
      //System.err.println("Compile Puncs");
      puncsPat = new Pattern[puncs.length];
      for(int i = 0; i < puncs.length; i++) {
        Character punc = puncs[i];
        puncsPat[i] = Pattern.compile(WHITE + punc + WHITE);
      }
    }
    for (int i = 0; i < puncsPat.length; i++) {
      Pattern p = puncsPat[i];
      Character punc = puncs[i];
      Matcher m = p.matcher(ans);
      ans = m.replaceAll(" "+punc+" ");
    }
    ans = ans.trim();
    return ans;
  }

  private static String separatePuncs(Character[] puncs_in, String ans) {
    /* make sure some punctuations will only appeared as one word (segmented from others). */
    /* These punctuations are derived directly from the training set. */
    if (puncs == null) { puncs = puncs_in; }
    if (puncsPat == null) {
      //System.err.println("Compile Puncs");
      puncsPat = new Pattern[puncs.length];
      for(int i = 0; i < puncs.length; i++) {
        Character punc = puncs[i];
        if (punc == '(' || punc == ')') { // escape
          puncsPat[i] = Pattern.compile(WHITE + "\\" + punc + WHITE);
        } else {
          puncsPat[i] = Pattern.compile(WHITE + punc + WHITE);
        }
      }
    }

    for (int i = 0; i < puncsPat.length; i++) {
      Pattern p = puncsPat[i];
      Character punc = puncs[i];
      Matcher m = p.matcher(ans);
      ans = m.replaceAll(" "+punc+" ");
    }
    ans = ans.trim();
    return ans;
  }

  /** The one extant use of this method is to connect a U+30FB (Katakana midDot
   *  with preceding and following non-space characters (in CTB
   *  postprocessing). I would hypothesize that if mid dot chars were correctly
   *  recognized in shape contexts, then this would be unnecessary [cdm 2007].
   *  Also, note that IBM GALE normalization seems to produce U+30FB and not
   *  U+00B7.
   *
   *  @param punc character to be joined to surrounding chars
   *  @param ans Input string which may or may not contain punc
   *  @return String with spaces removed between any instance of punc and
   *      surrounding chars.
   */
  private static String gluePunc(Character punc, String ans) {
    Pattern p = Pattern.compile(WHITE + punc);
    Matcher m = p.matcher(ans);
    ans = m.replaceAll(String.valueOf(punc));
    p = Pattern.compile(punc + WHITE);
    m = p.matcher(ans);
    ans = m.replaceAll(String.valueOf(punc));
    ans = ans.trim();
    return ans;
  }

  static Character[] colons = {'\ufe55', ':', '\uff1a'};
  static Pattern[] colonsPat = null;
  static Pattern[] colonsWhitePat = null;

  private static String processColons(String ans, String numPat) {
    /*
     ':' 1. if "5:6" then put together
         2. if others, separate ':' and others
         *** Note!! All the "digits" are actually extracted/learned from the training data!!!!
             They are not real "digits" knowledge.
         *** See /u/nlp/data/chinese-segmenter/Sighan2005/dict/wordlist for the list we extracted.
    */

    // first , just separate all ':'
    if (colonsPat == null) {
      colonsPat = new Pattern[colons.length];
      for (int i = 0; i < colons.length; i++) {
        Character colon = colons[i];
        colonsPat[i] = Pattern.compile(WHITE + colon + WHITE);
      }
    }

    for (int i = 0; i < colons.length; i++) {
      Character colon = colons[i];
      Pattern p = colonsPat[i];
      Matcher m = p.matcher(ans);
      ans = m.replaceAll(" "+colon+" ");
    }

    if (colonsWhitePat == null) {
      colonsWhitePat = new Pattern[colons.length];
      for (int i = 0; i < colons.length; i++) {
        Character colon = colons[i];
        colonsWhitePat[i] = Pattern.compile("("+numPat+")" + WHITEPLUS + colon + WHITEPLUS + "("+numPat+")");
      }
    }
    // second , combine "5:6" patterns
    for (int i = 0; i < colons.length; i++) {
      Character colon = colons[i];
      Pattern p = colonsWhitePat[i];
      Matcher m = p.matcher(ans);
      while(m.find()) {
        ans = m.replaceAll("$1"+colon+"$2");
        m = p.matcher(ans);
      }
    }
    ans = ans.trim();
    return ans;
  }

  private static final Pattern percentsPat = Pattern.compile(WHITE + "([\uff05%])" + WHITE);
  private static final String percentStr = WHITEPLUS + "([\uff05%])";
  private static Pattern percentsWhitePat; // = null;

  private static String processPercents(String ans, String numPat) {
    //  1. if "6%" then put together
    //  2. if others, separate '%' and others
    // System.err.println("Process percents called!");
    // first , just separate all '%'
    Matcher m = percentsPat.matcher(ans);
    ans = m.replaceAll(" $1 ");

    // second , combine "6%" patterns
    if (percentsWhitePat==null) {
      percentsWhitePat = Pattern.compile("(" + numPat + ")" + percentStr);
    }
    Matcher m2 = percentsWhitePat.matcher(ans);
    ans = m2.replaceAll("$1$2");
    ans = ans.trim();
    return ans;
  }

  private static String processDots(String ans, String numPat) {
    /* all "\d\.\d" patterns */
    String dots = "[\ufe52\u2027\uff0e.]";
    Pattern p = Pattern.compile("("+numPat+")" + WHITEPLUS + "("+dots+")" + WHITEPLUS + "("+numPat+")");
    Matcher m = p.matcher(ans);
    while(m.find()) {
    ans = m.replaceAll("$1$2$3");
      m = p.matcher(ans);
    }

    p = Pattern.compile("("+numPat+")("+dots+")" + WHITEPLUS + "("+numPat+")");
    m = p.matcher(ans);
    while (m.find()) {
      ans = m.replaceAll("$1$2$3");
      m = p.matcher(ans);
    }

    p = Pattern.compile("("+numPat+")" + WHITEPLUS + "("+dots+")("+numPat+")");
    m = p.matcher(ans);
    while(m.find()) {
      ans = m.replaceAll("$1$2$3");
      m = p.matcher(ans);
    }

    ans = ans.trim();
    return ans;
  }

  private static String processCommas(String ans) {
    String numPat = "[0-9\uff10-\uff19]";
    String nonNumPat = "[^0-9\uff10-\uff19]";

    /* all "\d\.\d" patterns */
    String commas = ",";

    //Pattern p = Pattern.compile(WHITE + commas + WHITE);
    ans = ans.replaceAll(",", " , ");
    ans = ans.replaceAll("  ", " ");
    if (DEBUG) EncodingPrintWriter.err.println("ANS (before comma norm): "+ans, "UTF-8");
    Pattern p = Pattern.compile("("+numPat+")" + WHITE + "("+commas+")" + WHITE + "("+numPat+"{3}" + nonNumPat+")");
    // cdm: I added the {3} to be a crude fix so it wouldn't joint back
    // up small numbers.  Only proper thousands markers.  But it's a
    // crude hack, which should be done better.
    // In fact this whole method is horrible and should be done better!
    /* -- cdm: I didn't understand this code, and changed it to what
       -- seemed sane to me: replaceAll replaces them all in one step....
    Matcher m = p.matcher(ans);
    while(m.find()) {
    ans = m.replaceAll("$1$2$3");
      m = p.matcher(ans);
    }
    */
    /* ++ cdm: The replacement */
    Matcher m = p.matcher(ans);
    if (m.find()) {
      ans = m.replaceAll("$1$2$3");
    }
    /*
    p = Pattern.compile("("+nonNumPat+")" + WHITE + "("+commas+")" + WHITE + "("+numPat+")");
    m = p.matcher(ans);
    while(m.find()) {
      ans = m.replaceAll("$1 $2 $3");
      m = p.matcher(ans);
    }

    p = Pattern.compile("("+numPat+")" + WHITE + "("+commas+")" + WHITE + "("+nonNumPat+")");
    m = p.matcher(ans);
    while(m.find()) {
      ans = m.replaceAll("$1 $2 $3");
      m = p.matcher(ans);
    }

    p = Pattern.compile("("+nonNumPat+")" + WHITE + "("+commas+")" + WHITE + "("+nonNumPat+")");
    m = p.matcher(ans);
    while(m.find()) {
      ans = m.replaceAll("$1 $2 $3");
      m = p.matcher(ans);
    }

    */

    ans = ans.trim();
    return ans;
  }

  static String postProcessingAnswerCTB(String ans, boolean keepAllWhitespaces, boolean suppressMidDotPostprocessing) {
    Character[] puncs = {'\u3001', '\u3002', '\u3003', '\u3008', '\u3009', '\u300a', '\u300b',
                         '\u300c', '\u300d', '\u300e', '\u300f', '\u3010', '\u3011', '\u3014',
                         '\u3015', '\u0028', '\u0029', '\u0022', '\u003c', '\u003e' };
    String numPat = "[0-9\uff10-\uff19]+";
//    if ( ! keepAllWhitespaces) {  // these should now never delete an original space
      ans = separatePuncs(puncs, ans);
      if (!suppressMidDotPostprocessing) {
        ans = gluePunc('\u30fb', ans); // this is a 'connector' - the katakana midDot char
      }
      ans = processColons(ans, numPat);
      ans = processPercents(ans, numPat);
      ans = processDots(ans, numPat);
      ans = processCommas(ans);
//    }
    ans = ans.trim();
    return ans;
  }

  private static String postProcessingAnswerPK(String ans, boolean keepAllWhitespaces) {
    Character[] puncs = {'\u3001', '\u3002', '\u3003', '\u3008', '\u3009', '\u300a', '\u300b',
                         '\u300c', '\u300d', '\u300e', '\u300f', '\u3010', '\u3011', '\u3014',
                         '\u3015', '\u2103'};

    ans = separatePuncs(puncs, ans);
    /* Note!! All the "digits" are actually extracted/learned from the training data!!!!
       They are not real "digits" knowledge.
       See /u/nlp/data/chinese-segmenter/Sighan2005/dict/wordlist for the list we extracted
    */
    String numPat = "[0-9\uff10-\uff19\uff0e\u00b7\u4e00\u5341\u767e]+";
		if (!keepAllWhitespaces) {
			ans = processColons(ans, numPat);
			ans = processPercents(ans, numPat);
			ans = processDots(ans, numPat);
			ans = processCommas(ans);


			/* "\u2014\u2014\u2014" and "\u2026\u2026" should be together */

			String[] puncPatterns = {"\u2014" + WHITE + "\u2014" + WHITE + "\u2014", "\u2026" + WHITE + "\u2026"};
			String[] correctPunc = {"\u2014\u2014\u2014", "\u2026\u2026"};
			//String[] puncPatterns = {"\u2014 \u2014 \u2014", "\u2026 \u2026"};

			for (int i = 0; i < puncPatterns.length; i++) {
				Pattern p = Pattern.compile(WHITE + puncPatterns[i]+ WHITE);
				Matcher m = p.matcher(ans);
				ans = m.replaceAll(" "+correctPunc[i]+" ");
			}
		}
    ans = ans.trim();

    return ans;
  }

  private static String postProcessingAnswerMSR(String ans) {
    ans = separatePuncs(ans);
    return ans;
  }


  private static String postProcessingAnswerAS(String ans) {
    ans = separatePuncs(ans);

    /* Note!! All the "digits" are actually extracted/learned from the training data!!!!
       They are not real "digits" knowledge.
       See /u/nlp/data/chinese-segmenter/Sighan2005/dict/wordlist for the list we extracted
    */
    String numPat = "[\uff10-\uff19\u4e00\u4e8c\u4e09\u56db\u4e94\u516d\u4e03\u516b\u4e5d\u5341\u767e\u5343]+";

    ans = processColons(ans, numPat);
    ans = processPercents(ans, numPat);
    ans = processDots(ans, numPat);
    ans = processCommas(ans);



    return ans;
  }


  private static String postProcessingAnswerHK(String ans) {
    Character[] puncs = {'\u3001', '\u3002', '\u3003', '\u3008', '\u3009', '\u300a', '\u300b',
                         '\u300c', '\u300d', '\u300e', '\u300f', '\u3010', '\u3011', '\u3014',
                         '\u3015', '\u2103'};

    ans = separatePuncs(puncs, ans);

    /* Note!! All the "digits" are actually extracted/learned from the training data!!!!
       They are not real "digits" knowledge.
       See /u/nlp/data/chinese-segmenter/Sighan2005/dict/wordlist for the list we extracted
    */
    String numPat = "[0-9]+";
    ans = processColons(ans, numPat);


    /* "\u2014\u2014\u2014" and "\u2026\u2026" should be together */

    String[] puncPatterns = {"\u2014" + WHITE + "\u2014" + WHITE + "\u2014", "\u2026" + WHITE + "\u2026"};
    String[] correctPunc = {"\u2014\u2014\u2014", "\u2026\u2026"};
    //String[] puncPatterns = {"\u2014 \u2014 \u2014", "\u2026 \u2026"};

    for (int i = 0; i < puncPatterns.length; i++) {
      Pattern p = Pattern.compile(WHITE + puncPatterns[i]+ WHITE);
      Matcher m = p.matcher(ans);
      ans = m.replaceAll(" "+correctPunc[i]+" ");
    }
    ans = ans.trim();


    return ans;
  }

  /**
   * just for testing
   */
  public static void main(String[] args) {
    String input = args[0];
    String enc = args[1];

    for (String line : ObjectBank.getLineIterator(new File(input), enc)) {
      // System.out.println(postProcessingAnswerHK(line));
      EncodingPrintWriter.out.println(processPercents(line, "[0-9\uff10-\uff19]+"), "UTF-8");
    }
  }

}