ChineseDictionary.java example

Explorer

stan-cn-com-master
- src
  - main
    - java
      - com
        guokr
        protocol
        Protocols.java
        xcf
        Handler.java
        XcfConnection.java
        XcfFileConnection.java
        XcfJarConnection.java
        util
        MultipleGZIPOutputStream.java
        Settings.java
      - edu
        stanford
        nlp
        classify
        AbstractLinearClassifierFactory.java
        AdaptedGaussianPriorObjectiveFunction.java
        BiasedLogConditionalObjectiveFunction.java
        BiasedLogisticObjectiveFunction.java
        Classifier.java
        ClassifierCreator.java
        ClassifierFactory.java
        CrossValidator.java
        Dataset.java
        GeneralDataset.java
        GeneralizedExpectationObjectiveFunction.java
        LinearClassifier.java
        LinearClassifierFactory.java
        LogConditionalObjectiveFunction.java
        LogPrior.java
        LogisticClassifier.java
        LogisticClassifierFactory.java
        LogisticObjectiveFunction.java
        NBLinearClassifierFactory.java
        PRCurve.java
        ProbabilisticClassifier.java
        ProbabilisticClassifierCreator.java
        RVFClassifier.java
        RVFDataset.java
        SVMLightClassifier.java
        SVMLightClassifierFactory.java
        SemiSupervisedLogConditionalObjectiveFunction.java
        WeightedDataset.java
        dcoref
        ACEMentionExtractor.java
        CoNLL2011DocumentReader.java
        CoNLLMentionExtractor.java
        Constants.java
        CorefChain.java
        CorefCluster.java
        CorefCoreAnnotations.java
        CorefMentionFinder.java
        CorefScorer.java
        Dictionaries.java
        Document.java
        MUCMentionExtractor.java
        Mention.java
        MentionExtractor.java
        MentionMatcher.java
        RuleBasedCorefMentionFinder.java
        Rules.java
        ScorerBCubed.java
        ScorerMUC.java
        ScorerPairwise.java
        Semantics.java
        SieveCoreferenceSystem.java
        SieveOptions.java
        SpeakerInfo.java
        sievepasses
        AliasMatch.java
        CorefDictionaryMatch.java
        DeterministicCorefSieve.java
        DiscourseMatch.java
        ExactStringMatch.java
        LexicalChainMatch.java
        MarkRole.java
        NameMatch.java
        NameMatchPrecise.java
        PreciseConstructs.java
        PronounMatch.java
        RelaxedExactStringMatch.java
        RelaxedHeadMatch.java
        StrictHeadMatch1.java
        StrictHeadMatch2.java
        StrictHeadMatch3.java
        StrictHeadMatch4.java
        fsm
        AutomatonMinimizer.java
        Block.java
        DFSA.java
        DFSAState.java
        DFSATransition.java
        FastExactAutomatonMinimizer.java
        QuasiDeterminizer.java
        TransducerGraph.java
        graph
        ConnectedComponents.java
        DijkstraShortestPath.java
        DirectedMultiGraph.java
        Graph.java
        ie
        AbstractSequenceClassifier.java
        AcquisitionsPrior.java
        ClassifierCombiner.java
        EmpiricalNERPrior.java
        EmpiricalNERPriorBIO.java
        EntityCachingAbstractSequencePrior.java
        EntityCachingAbstractSequencePriorBIO.java
        NERClassifierCombiner.java
        NERFeatureFactory.java
        NumberNormalizer.java
        QuantifiableEntityNormalizer.java
        SeminarsPrior.java
        UniformPrior.java
        crf
        CRFBiasedClassifier.java
        CRFClassifier.java
        CRFClassifierEvaluator.java
        CRFClassifierFloat.java
        CRFClassifierNoisyLabel.java
        CRFClassifierNonlinear.java
        CRFClassifierWithDropout.java
        CRFClassifierWithLOP.java
        CRFCliqueTree.java
        CRFDatum.java
        CRFFeatureExporter.java
        CRFLabel.java
        CRFLogConditionalObjectiveFloatFunction.java
        CRFLogConditionalObjectiveFunction.java
        CRFLogConditionalObjectiveFunctionForLOP.java
        CRFLogConditionalObjectiveFunctionNoisyLabel.java
        CRFLogConditionalObjectiveFunctionWithDropout.java
        CRFNonLinearLogConditionalObjectiveFunction.java
        CRFNonLinearSecondOrderLogConditionalObjectiveFunction.java
        CliquePotentialFunction.java
        FactorTable.java
        FloatFactorTable.java
        HasCliquePotentialFunction.java
        LabelDictionary.java
        LinearCliquePotentialFunction.java
        NoisyLabelLinearCliquePotentialFunction.java
        NonLinearCliquePotentialFunction.java
        NonLinearSecondOrderCliquePotentialFunction.java
        TestSequenceModel.java
        machinereading
        BasicEntityExtractor.java
        BasicRelationExtractor.java
        Extractor.java
        ExtractorMerger.java
        GenericDataSetReader.java
        LabelValidator.java
        MachineReading.java
        MachineReadingProperties.java
        RelationFeatureFactory.java
        ResultsPrinter.java
        common
        DomReader.java
        NoPunctuationHeadFinder.java
        SimpleTokenize.java
        StringDictionary.java
        domains
        ace
        AceReader.java
        reader
        AceCharSeq.java
        AceDocument.java
        AceDomReader.java
        AceElement.java
        AceEntity.java
        AceEntityMention.java
        AceEvent.java
        AceEventMention.java
        AceEventMentionArgument.java
        AceMention.java
        AceMentionArgument.java
        AceRelation.java
        AceRelationMention.java
        AceRelationMentionArgument.java
        AceSentenceSegmenter.java
        AceToken.java
        MatchException.java
        RobustTokenizer.java
        roth
        RothCONLL04Reader.java
        RothEntityExtractor.java
        structure
        AnnotationUtils.java
        EntityMention.java
        EntityMentionFactory.java
        EventMention.java
        ExtractionObject.java
        MachineReadingAnnotations.java
        RelationMention.java
        RelationMentionFactory.java
        Span.java
        ner
        CMMClassifier.java
        pascal
        AcronymModel.java
        Alignment.java
        AlignmentFactory.java
        CliqueTemplates.java
        DateTemplate.java
        DefaultTeXHyphenData.java
        ISODateInstance.java
        InfoTemplate.java
        PascalTemplate.java
        Prior.java
        RelationalModel.java
        TeXHyphenator.java
        regexp
        NumberSequenceClassifier.java
        RegexNERSequenceClassifier.java
        international
        Languages.java
        arabic
        ArabicMorphoFeatureSpecification.java
        Buckwalter.java
        pipeline
        DefaultLexicalMapper.java
        process
        ArabicDocumentReaderAndWriter.java
        ArabicLexer.java
        ArabicSegmenter.java
        ArabicSegmenterFeatureFactory.java
        ArabicTokenizer.java
        IOBUtils.java
        french
        FrenchMorphoFeatureSpecification.java
        FrenchUnknownWordSignatures.java
        process
        FrenchLexer.java
        FrenchTokenizer.java
        morph
        MorphoFeatureSpecification.java
        MorphoFeatures.java
        io
        BZip2PipedOutputStream.java
        EncodingFileReader.java
        EncodingPrintWriter.java
        ExtensionFileFilter.java
        FileSequentialCollection.java
        IOUtils.java
        Lexer.java
        NumberRangeFileFilter.java
        NumberRangesFileFilter.java
        PrintFile.java
        ReaderInputStream.java
        RegExFileFilter.java
        RuntimeIOException.java
        StringOutputStream.java
        TeeStream.java
        ling
        AnnotationLookup.java
        BasicDatum.java
        BasicDocument.java
        CategoryWordTag.java
        CategoryWordTagFactory.java
        ChineseCoreAnnotations.java
        CoreAnnotation.java
        CoreAnnotations.java
        CoreLabel.java
        Datum.java
        Document.java
        DocumentReader.java
        Featurizable.java
        HasCategory.java
        HasContext.java
        HasIndex.java
        HasLemma.java
        HasOffset.java
        HasTag.java
        HasWord.java
        IndexedWord.java
        Label.java
        LabelFactory.java
        Labeled.java
        LabeledWord.java
        MultiTokenTag.java
        RVFDatum.java
        Sentence.java
        StringLabel.java
        StringLabelFactory.java
        Tag.java
        TaggedWord.java
        TaggedWordFactory.java
        ValueLabel.java
        Word.java
        WordFactory.java
        WordLemmaTag.java
        WordLemmaTagFactory.java
        WordTag.java
        WordTagFactory.java
        tokensregex
        BasicSequenceMatchResult.java
        CoreMapExpressionExtractor.java
        CoreMapExpressionNodePattern.java
        CoreMapNodePattern.java
        CoreMapNodePatternTrigger.java
        CoreMapSequenceMatchAction.java
        CoreMapSequenceMatcher.java
        Env.java
        EnvLookup.java
        MatchedExpression.java
        MultiCoreMapNodePattern.java
        MultiNodePattern.java
        MultiPatternMatcher.java
        MultiWordStringMatcher.java
        NodePattern.java
        PhraseTable.java
        SequenceMatchAction.java
        SequenceMatchResult.java
        SequenceMatchRules.java
        SequenceMatcher.java
        SequencePattern.java
        TokenSequenceMatcher.java
        TokenSequencePattern.java
        matcher
        ApproxMatch.java
        BoundedCostOrderedMap.java
        ExactMatchCost.java
        Match.java
        MatchCostFunction.java
        MultiMatch.java
        TrieMap.java
        TrieMapMatcher.java
        parser
        ParseException.java
        SimpleCharStream.java
        Token.java
        TokenMgrError.java
        TokenSequenceParser.java
        TokenSequenceParserConstants.java
        TokenSequenceParserTokenManager.java
        types
        AssignableExpression.java
        Expression.java
        Expressions.java
        Tags.java
        Value.java
        ValueFunction.java
        ValueFunctions.java
        math
        ADMath.java
        ArrayMath.java
        DoubleAD.java
        NumberMatchingRegex.java
        SloppyMath.java
        maxent
        CGRunner.java
        DataGeneric.java
        Experiments.java
        Feature.java
        Features.java
        Problem.java
        iis
        LambdaSolve.java
        net
        ClasspathURLStreamHandler.java
        neural
        Embedding.java
        NeuralUtils.java
        SimpleTensor.java
        rnn
        RNNCoreAnnotations.java
        TopNGramRecord.java
        objectbank
        DelimitRegExIterator.java
        IdentityFunction.java
        IteratorFromReaderFactory.java
        LineIterator.java
        ObjectBank.java
        ReaderIteratorFactory.java
        ResettableReaderIteratorFactory.java
        XMLBeginEndIterator.java
        optimization
        AbstractCachingDiffFloatFunction.java
        AbstractCachingDiffFunction.java
        AbstractStochasticCachingDiffFunction.java
        AbstractStochasticCachingDiffUpdateFunction.java
        CGMinimizer.java
        CmdEvaluator.java
        DiffFloatFunction.java
        DiffFunction.java
        Evaluator.java
        FloatFunction.java
        Function.java
        GoldenSectionLineSearch.java
        HasEvaluators.java
        HasFeatureGrouping.java
        HasFloatInitial.java
        HasInitial.java
        HasRegularizerParamRange.java
        HybridMinimizer.java
        InefficientSGDMinimizer.java
        LineSearcher.java
        MemoryEvaluator.java
        Minimizer.java
        QNMinimizer.java
        ResultStoringFloatMonitor.java
        ResultStoringMonitor.java
        SGDMinimizer.java
        SGDToQNMinimizer.java
        SGDWithAdaGradAndFOBOS.java
        SMDMinimizer.java
        SQNMinimizer.java
        ScaledSGDMinimizer.java
        StochasticCalculateMethods.java
        StochasticDiffFunctionTester.java
        StochasticMinimizer.java
        parser
        KBestViterbiParser.java
        Parser.java
        ViterbiParser.java
        ViterbiParserWithOptions.java
        charniak
        CharniakParser.java
        CharniakScoredParsesReaderWriter.java
        common
        ArgUtils.java
        NoSuchParseException.java
        ParserAnnotations.java
        ParserConstraint.java
        ParserGrammar.java
        ParserQuery.java
        ParserUtils.java
        ParsingThreadsafeProcessor.java
        dvparser
        CacheParseHypotheses.java
        DVModel.java
        DVModelReranker.java
        DVParser.java
        DVParserCostAndGradient.java
        FilterConfusingRules.java
        UnknownWordPrinter.java
        lexparser
        AbstractDependencyGrammar.java
        AbstractTreeExtractor.java
        AbstractTreebankParserParams.java
        AbstractUnknownWordModelTrainer.java
        ArabicTreebankParserParams.java
        ArabicUnknownWordModel.java
        ArabicUnknownWordModelTrainer.java
        ArabicUnknownWordSignatures.java
        BaseLexicon.java
        BaseUnknownWordModel.java
        BaseUnknownWordModelTrainer.java
        BasicCategoryTagProjection.java
        BiLexPCFGParser.java
        BinaryGrammar.java
        BinaryGrammarExtractor.java
        BinaryHeadFinder.java
        BinaryRule.java
        BoundaryRemover.java
        CNFTransformers.java
        ChineseCharacterBasedLexicon.java
        ChineseLexicon.java
        ChineseLexiconAndWordSegmenter.java
        ChineseSimWordAvgDepGrammar.java
        ChineseTreebankParserParams.java
        ChineseUnknownWordModel.java
        ChineseUnknownWordModelTrainer.java
        CollinsPuncTransformer.java
        Debinarizer.java
        DependencyGrammar.java
        Edge.java
        EnglishTreebankParserParams.java
        EnglishUnknownWordModel.java
        EnglishUnknownWordModelTrainer.java
        EvalbFormatWriter.java
        EvaluateTreebank.java
        ExactGrammarCompactor.java
        ExhaustiveDependencyParser.java
        ExhaustivePCFGParser.java
        Extractor.java
        FactoredLexicon.java
        FactoredLexiconEvent.java
        FactoredParser.java
        FastFactoredParser.java
        FrenchTreebankParserParams.java
        FrenchUnknownWordModel.java
        FrenchUnknownWordModelTrainer.java
        GermanUnknownWordModel.java
        GermanUnknownWordModelTrainer.java
        GrammarCompactor.java
        GrammarProjection.java
        HTKLatticeReader.java
        HebrewTreebankParserParams.java
        Hook.java
        HookChart.java
        IntDependency.java
        IntTaggedWord.java
        Interner.java
        Item.java
        IterativeCKYPCFGParser.java
        Lattice.java
        LatticeEdge.java
        LatticeScorer.java
        LexicalizedParser.java
        LexicalizedParserQuery.java
        Lexicon.java
        LinearGrammarSmoother.java
        MLEDependencyGrammar.java
        MLEDependencyGrammarExtractor.java
        NegraPennCollinizer.java
        NegraPennTreebankParserParams.java
        NodePruner.java
        NullGrammarProjection.java
        Options.java
        OutsideRuleFilter.java
        ParentAnnotationStats.java
        ParseFiles.java
        ParserUtils.java
        PostSplitter.java
        ProjectionScorer.java
        RandomWalk.java
        Reranker.java
        RerankerQuery.java
        RerankingParserQuery.java
        Rule.java
        Scorer.java
        SisterAnnotationStats.java
        SplittingGrammarExtractor.java
        TagProjection.java
        TestOptions.java
        TestTagProjection.java
        TrainOptions.java
        TreeAnnotator.java
        TreeAnnotatorAndBinarizer.java
        TreeBinarizer.java
        TreeCollinizer.java
        TreebankAnnotator.java
        TreebankLangParserParams.java
        TwinScorer.java
        UnaryGrammar.java
        UnaryRule.java
        UnknownGTTrainer.java
        UnknownWordModel.java
        UnknownWordModelTrainer.java
        metrics
        AbstractEval.java
        BestOfTopKEval.java
        Eval.java
        Evalb.java
        EvalbByCat.java
        FilteredEval.java
        LeafAncestorEval.java
        ParserQueryEval.java
        TaggingEval.java
        TopMatchEval.java
        TreeSpanScoring.java
        UnlabeledAttachmentEval.java
        shiftreduce
        BasicFeatureFactory.java
        BinaryTransition.java
        CombinationFeatureFactory.java
        CompoundUnaryTransition.java
        CreateTransitionSequence.java
        DistsimFeatureFactory.java
        FeatureFactory.java
        FinalizeTransition.java
        IdleTransition.java
        Oracle.java
        OracleTransition.java
        ShiftReduceOptions.java
        ShiftReduceParser.java
        ShiftReduceParserQuery.java
        ShiftReduceTestOptions.java
        ShiftReduceTrainOptions.java
        ShiftReduceUtils.java
        ShiftTransition.java
        State.java
        Transition.java
        TreeRecorder.java
        UnaryTransition.java
        Weight.java
        tools
        PunctEquivalenceClasser.java
        patterns
        surface
        AnnotatedTextReader.java
        ApplyPatternsMulti.java
        ConstantsAndVariables.java
        CreatePatterns.java
        Data.java
        EditDistanceDamerauLevenshteinLike.java
        GetPatternsFromDataMultiClass.java
        InvertedIndexByTokens.java
        LearnImportantFeatures.java
        PatternToken.java
        PatternsAnnotations.java
        PhraseScorer.java
        ScorePatterns.java
        ScorePatternsF1.java
        ScorePatternsFreqBased.java
        ScorePatternsRatioModifiedFreq.java
        ScorePhrases.java
        ScorePhrasesAverageFeatures.java
        SurfacePattern.java
        pipeline
        Annotation.java
        AnnotationPipeline.java
        AnnotationSerializer.java
        Annotator.java
        AnnotatorFactory.java
        AnnotatorPool.java
        CharniakParserAnnotator.java
        ChineseSegmenterAnnotator.java
        ChunkAnnotationUtils.java
        CleanXmlAnnotator.java
        CoreMapAggregator.java
        CoreMapAttributeAggregator.java
        CustomAnnotationSerializer.java
        DefaultPaths.java
        DeterministicCorefAnnotator.java
        GenderAnnotator.java
        LabeledChunkIdentifier.java
        MorphaAnnotator.java
        NERCombinerAnnotator.java
        POSTaggerAnnotator.java
        PTBTokenizerAnnotator.java
        ParserAnnotator.java
        ParserAnnotatorUtils.java
        RegexNERAnnotator.java
        RelationExtractorAnnotator.java
        Requirement.java
        SentimentAnnotator.java
        StanfordCoreNLP.java
        TextOutputter.java
        TokenizerAnnotator.java
        TokensRegexAnnotator.java
        TokensRegexNERAnnotator.java
        TrueCaseAnnotator.java
        WhitespaceTokenizerAnnotator.java
        WordsToSentencesAnnotator.java
        XMLOutputter.java
        process
        AbstractListProcessor.java
        AbstractTokenizer.java
        Americanize.java
        AmericanizeFunction.java
        ChineseDocumentToSentenceProcessor.java
        CoreLabelTokenFactory.java
        CoreTokenFactory.java
        DistSimClassifier.java
        DocumentPreprocessor.java
        DocumentProcessor.java
        JFlexDummyLexer.java
        LexedTokenFactory.java
        LexerTokenizer.java
        ListProcessor.java
        LowercaseAndAmericanizeFunction.java
        LowercaseFunction.java
        Morpha.java
        Morphology.java
        PTB2TextLexer.java
        PTBEscapingProcessor.java
        PTBLexer.java
        PTBTokenizer.java
        SerializableFunction.java
        StripTagsProcessor.java
        Tokenizer.java
        TokenizerAdapter.java
        TokenizerFactory.java
        TransformXML.java
        WhitespaceLexer.java
        WhitespaceTokenizer.java
        WordSegmenter.java
        WordSegmentingTokenizer.java
        WordShapeClassifier.java
        WordToSentenceProcessor.java
        WordTokenFactory.java
        semgraph
        SemanticGraph.java
        SemanticGraphCoreAnnotations.java
        SemanticGraphEdge.java
        SemanticGraphFactory.java
        SemanticGraphFormatter.java
        sentiment
        BuildBinarizedDataset.java
        CollapseUnaryTransformer.java
        Evaluate.java
        RNNOptions.java
        RNNTestOptions.java
        RNNTrainOptions.java
        ReadSentimentDataset.java
        SentimentCoreAnnotations.java
        SentimentCostAndGradient.java
        SentimentModel.java
        SentimentPipeline.java
        SentimentTraining.java
        SentimentUtils.java
        sequences
        BeamBestSequenceFinder.java
        BestSequenceFinder.java
        Clique.java
        CoNLLDocumentReaderAndWriter.java
        ColumnDocumentReaderAndWriter.java
        CoolingSchedule.java
        DocumentReaderAndWriter.java
        ExactBestSequenceFinder.java
        FactoredSequenceListener.java
        FactoredSequenceModel.java
        FeatureFactory.java
        KBestSequenceFinder.java
        LatticeWriter.java
        ObjectBankWrapper.java
        PlainTextDocumentReaderAndWriter.java
        SeqClassifierFlags.java
        SequenceGibbsSampler.java
        SequenceListener.java
        SequenceModel.java
        SequenceSampler.java
        TrueCasingForNISTDocumentReaderAndWriter.java
        ViterbiSearchGraphBuilder.java
        stats
        AbstractCounter.java
        AccuracyStats.java
        ClassicCounter.java
        Counter.java
        Counters.java
        Distribution.java
        EquivalenceClasser.java
        GeneralizedCounter.java
        IntCounter.java
        MultiClassAccuracyStats.java
        MultiClassChunkEvalStats.java
        MultiClassPrecisionRecallExtendedStats.java
        MultiClassPrecisionRecallStats.java
        PrecisionRecallStats.java
        ProbabilityDistribution.java
        Sampler.java
        Scorer.java
        SimpleGoodTuring.java
        TwoDimensionalCounter.java
        TwoDimensionalCounterInterface.java
        TwoDimensionalIntCounter.java
        tagger
        common
        Tagger.java
        io
        TSVTaggedFileReader.java
        TaggedFileReader.java
        TaggedFileRecord.java
        TextTaggedFileReader.java
        TreeTaggedFileReader.java
        maxent
        ASBCunkDict.java
        AmbiguityClass.java
        AmbiguityClasses.java
        CTBunkDict.java
        CountWrapper.java
        CtbDict.java
        DataWordTag.java
        Dictionary.java
        DictionaryExtractor.java
        Distsim.java
        Extractor.java
        ExtractorDistsim.java
        ExtractorDistsimConjunction.java
        ExtractorFrames.java
        ExtractorFramesRare.java
        ExtractorVerbalVBNZero.java
        Extractors.java
        FeatureKey.java
        History.java
        HistoryTable.java
        LambdaSolveTagger.java
        MaxentTagger.java
        PairsHolder.java
        ReadDataTagged.java
        TTags.java
        TagCount.java
        TaggerConfig.java
        TaggerExperiments.java
        TaggerFeature.java
        TaggerFeatures.java
        TemplateHash.java
        TestClassifier.java
        TestSentence.java
        time
        GUTimeAnnotator.java
        GenericTimeExpressionPatterns.java
        HeidelTimeAnnotator.java
        JodaTimeUtils.java
        JollyDayHolidays.java
        Options.java
        SUTime.java
        SUTimeMain.java
        TimeAnnotations.java
        TimeAnnotator.java
        TimeExpression.java
        TimeExpressionExtractor.java
        TimeExpressionExtractorFactory.java
        TimeExpressionExtractorImpl.java
        TimeExpressionPatterns.java
        TimeFormatter.java
        Timex.java
        XMLUtils.java
        trees
        AbstractCollinsHeadFinder.java
        AbstractTreebankLanguagePack.java
        BasicCategoryTreeTransformer.java
        BobChrisTreeNormalizer.java
        CollinsHeadFinder.java
        CollocationFinder.java
        CompositeTreeTransformer.java
        CompositeTreebank.java
        Constituent.java
        ConstituentFactory.java
        CoordinationTransformer.java
        CopulaHeadFinder.java
        DateTreeTransformer.java
        DeepTree.java
        Dependencies.java
        Dependency.java
        DependencyFactory.java
        DependencyPrinter.java
        DependencyReader.java
        DependencyTreeTransformer.java
        DependencyTyper.java
        DiskTreebank.java
        EnglishGrammaticalRelations.java
        EnglishGrammaticalStructure.java
        EnglishGrammaticalStructureFactory.java
        EnglishPTBTreebankCorrector.java
        FilteringTreeReader.java
        FilteringTreebank.java
        GrammaticalRelation.java
        GrammaticalStructure.java
        GrammaticalStructureFactory.java
        GrammaticalStructureFromDependenciesFactory.java
        HasParent.java
        HeadFinder.java
        Labeled.java
        LabeledConstituent.java
        LabeledScoredConstituent.java
        LabeledScoredConstituentFactory.java
        LabeledScoredTreeFactory.java
        LabeledScoredTreeNode.java
        LabeledScoredTreeReaderFactory.java
        LeftHeadFinder.java
        LengthTreeFilter.java
        MemoryTreebank.java
        ModCollinsHeadFinder.java
        NPTmpRetainingTreeNormalizer.java
        NamedDependency.java
        PennTreeReader.java
        PennTreeReaderFactory.java
        PennTreebankLanguagePack.java
        PennTreebankTokenizer.java
        QPTreeTransformer.java
        RecursiveTreeTransformer.java
        SemanticHeadFinder.java
        SimpleConstituent.java
        SimpleConstituentFactory.java
        SimpleTree.java
        SimpleTreeFactory.java
        Span.java
        SynchronizedTreeTransformer.java
        TransformingTreebank.java
        Tree.java
        TreeCoreAnnotations.java
        TreeFactory.java
        TreeFilters.java
        TreeFunctions.java
        TreeGraph.java
        TreeGraphNode.java
        TreeGraphNodeFactory.java
        TreeLeafLabelTransformer.java
        TreeLemmatizer.java
        TreeLengthComparator.java
        TreeNormalizer.java
        TreePrint.java
        TreeReader.java
        TreeReaderFactory.java
        TreeTokenizerFactory.java
        TreeTransformer.java
        TreeVisitor.java
        Treebank.java
        TreebankFactory.java
        TreebankLanguagePack.java
        TreebankTransformer.java
        Treebanks.java
        Trees.java
        TypedDependency.java
        UnnamedConcreteDependency.java
        UnnamedDependency.java
        WordNetConnection.java
        WordStemmer.java
        international
        arabic
        ATBTreeUtils.java
        ArabicHeadFinder.java
        ArabicTreeNormalizer.java
        ArabicTreeReaderFactory.java
        ArabicTreebankLanguagePack.java
        ArabicTreebankTokenizer.java
        french
        DybroFrenchHeadFinder.java
        FrenchHeadFinder.java
        FrenchTreeNormalizer.java
        FrenchTreeReaderFactory.java
        FrenchTreebankLanguagePack.java
        FrenchXMLTreeReader.java
        FrenchXMLTreeReaderFactory.java
        hebrew
        HebrewTreeNormalizer.java
        HebrewTreeReaderFactory.java
        HebrewTreebankLanguagePack.java
        negra
        NegraHeadFinder.java
        NegraLabel.java
        NegraPennLanguagePack.java
        NegraPennLexer.java
        NegraPennTokenizer.java
        NegraPennTreeNormalizer.java
        NegraPennTreeReaderFactory.java
        pennchinese
        BikelChineseHeadFinder.java
        CEDict.java
        CHTBLexer.java
        CHTBTokenizer.java
        CTBErrorCorrectingTreeNormalizer.java
        CTBTreeReaderFactory.java
        ChineseCollinizer.java
        ChineseEnglishWordMap.java
        ChineseEscaper.java
        ChineseGrammaticalRelations.java
        ChineseGrammaticalStructure.java
        ChineseGrammaticalStructureFactory.java
        ChineseHeadFinder.java
        ChineseSemanticHeadFinder.java
        ChineseTreebankLanguagePack.java
        ChineseUtils.java
        FragDiscardingPennTreeReader.java
        RadicalMap.java
        SunJurafskyChineseHeadFinder.java
        treebank
        Mapper.java
        tregex
        CoordinationPattern.java
        DescriptionPattern.java
        Macros.java
        ParseException.java
        Relation.java
        SimpleCharStream.java
        Token.java
        TokenMgrError.java
        TregexMatcher.java
        TregexParseException.java
        TregexParser.java
        TregexParserConstants.java
        TregexParserTokenManager.java
        TregexPattern.java
        TregexPatternCompiler.java
        VariableStrings.java
        tsurgeon
        AdjoinNode.java
        AdjoinToFootNode.java
        AdjoinToHeadNode.java
        AuxiliaryTree.java
        CoindexNodes.java
        CoindexationGenerator.java
        CreateSubtreeNode.java
        DeleteNode.java
        ExciseNode.java
        FetchNode.java
        HoldTreeNode.java
        IfExistsNode.java
        InsertNode.java
        JJTTsurgeonParserState.java
        MoveNode.java
        Node.java
        ParseException.java
        PruneNode.java
        RelabelNode.java
        ReplaceNode.java
        SimpleCharStream.java
        SimpleNode.java
        Token.java
        TokenMgrError.java
        TreeLocation.java
        Tsurgeon.java
        TsurgeonParseException.java
        TsurgeonParser.java
        TsurgeonParserConstants.java
        TsurgeonParserTokenManager.java
        TsurgeonParserTreeConstants.java
        TsurgeonPattern.java
        TsurgeonPatternRoot.java
        TsurgeonRuntimeException.java
        util
        AbstractIterator.java
        ArrayCoreMap.java
        ArrayHeap.java
        ArrayMap.java
        ArraySet.java
        ArrayStringFilter.java
        ArrayUtils.java
        Beam.java
        BinaryHeapPriorityQueue.java
        ByteStreamGobbler.java
        CacheMap.java
        Characters.java
        CollectionFactory.java
        CollectionUtils.java
        CollectionValuedMap.java
        Comparators.java
        ConcatenationIterator.java
        ConfusionMatrix.java
        ConvertByteArray.java
        CoreMap.java
        DataFilePaths.java
        DeltaCollectionValuedMap.java
        DeltaIndex.java
        DeltaMap.java
        EditDistance.java
        ErasureUtils.java
        Execution.java
        Factory.java
        FilePathProcessor.java
        FileProcessor.java
        Filter.java
        FilteredIterator.java
        Filters.java
        FixedPrioritiesPriorityQueue.java
        Function.java
        FuzzyInterval.java
        Generics.java
        HasInterval.java
        HashIndex.java
        HashableCoreMap.java
        Heap.java
        IdentityHashSet.java
        Index.java
        IntPair.java
        IntQuadruple.java
        IntTriple.java
        IntTuple.java
        IntUni.java
        Interner.java
        Interval.java
        IntervalTree.java
        IterableIterator.java
        Iterables.java
        MapFactory.java
        Maps.java
        MemoryMonitor.java
        MetaClass.java
        MutableDouble.java
        MutableInteger.java
        MutableLong.java
        PaddedList.java
        Pair.java
        PriorityQueue.java
        PropertiesUtils.java
        Quadruple.java
        ReflectionLoading.java
        RuntimeInterruptedException.java
        Scored.java
        ScoredComparator.java
        ScoredObject.java
        Sets.java
        StreamGobbler.java
        StringParsingTask.java
        StringUtils.java
        SystemUtils.java
        ThreeDimensionalMap.java
        Timing.java
        TreeShapedStack.java
        Triple.java
        TwoDimensionalCollectionValuedMap.java
        TwoDimensionalMap.java
        TwoDimensionalSet.java
        TypesafeMap.java
        UTF8EquivalenceFunction.java
        ValuedInterval.java
        XMLUtils.java
        concurrent
        MulticoreWrapper.java
        SynchronizedInterner.java
        ThreadsafeProcessor.java
        logging
        Color.java
        JavaUtilLoggingAdaptor.java
        LogRecordHandler.java
        NewlineLogFormatter.java
        OutputHandler.java
        PrettyLoggable.java
        PrettyLogger.java
        RedirectOutputHandler.java
        Redwood.java
        RedwoodConfiguration.java
        RedwoodPrintStream.java
        RepeatedRecordHandler.java
        RerouteChannel.java
        StanfordRedwoodConfiguration.java
        Style.java
        VisibilityHandler.java
        wordseg
        ChineseDictionary.java
        ChineseSegmenterFeatureFactory.java
        ChineseStringUtils.java
        CorpusChar.java
        CorpusDictionary.java
        Gale2007ChineseSegmenterFeatureFactory.java
        NonDict2.java
        Sighan2005DocumentReaderAndWriter.java
        TagAffixDetector.java
        affDict.java

package edu.stanford.nlp.wordseg;

import java.io.*;
import java.io.BufferedInputStream;
import java.util.*;
import java.util.regex.Pattern;

import edu.stanford.nlp.io.IOUtils;
import edu.stanford.nlp.io.EncodingPrintWriter;
import edu.stanford.nlp.process.ChineseDocumentToSentenceProcessor;
import edu.stanford.nlp.trees.international.pennchinese.ChineseUtils;
import edu.stanford.nlp.util.Generics;
import edu.stanford.nlp.util.StringUtils;
import java.util.zip.GZIPInputStream;

/** This class provides a main method that loads various dictionaries, and
 *  saves them in a serialized version, and runtime compiles them into a word list used as a feature in the segmenter, and
 * @author Pi-Chuan Chang
 */

public class ChineseDictionary {

  private static final boolean DEBUG = false;

  public static final int MAX_LEXICON_LENGTH = 6;
  @SuppressWarnings({"unchecked"})
  Set<String>[] words_ = new HashSet[MAX_LEXICON_LENGTH+1];

  private ChineseDocumentToSentenceProcessor cdtos_; // = null;

  private void serializeDictionary(String serializePath) {
    System.err.print("Serializing dictionaries to " + serializePath + "...");

    try {
      ObjectOutputStream oos = IOUtils.writeStreamFromString(serializePath);

      //oos.writeObject(MAX_LEXICON_LENGTH);
      oos.writeObject(words_);
      //oos.writeObject(cdtos_);
      oos.close();
      System.err.println("done.");
    } catch (Exception e) {
      System.err.println("Failed");
      throw new RuntimeException(e);
    }
  }

  @SuppressWarnings({"unchecked"})
  private static Set<String>[] loadDictionary(String serializePath) {
    Set<String>[] dict = new HashSet[MAX_LEXICON_LENGTH+1];
    for (int i = 0; i <= MAX_LEXICON_LENGTH; i++) {
      dict[i] = Generics.newHashSet();
    }

    System.err.print("loading dictionaries from " + serializePath + "...");

    try {
      // once we read MAX_LEXICON_LENGTH and cdtos as well
      // now these files only store one object we care about
      //ChineseDictionary.MAX_LEXICON_LENGTH = (int) ois.readObject();
      dict = IOUtils.readObjectFromURLOrClasspathOrFileSystem(serializePath);
    } catch (Exception e) {
      System.err.println("Failed to load Chinese dictionary " + serializePath);
      throw new RuntimeException(e);
    }
    return dict;
  }


  public ChineseDictionary(String dict) {
    this(new String[] { dict });
  }

  public ChineseDictionary(String[] dicts) {
    this(dicts, null);
  }

  public ChineseDictionary(String[] dicts,
                           ChineseDocumentToSentenceProcessor cdtos) {
    this(dicts, cdtos, false);
  }

  /**
   * The first argument can be one file path, or multiple files separated by
   * commas
   *
   **/
  public ChineseDictionary(String serDicts,
                           ChineseDocumentToSentenceProcessor cdtos,
                           boolean expandMidDot) {
    this(serDicts.split(","), cdtos, expandMidDot);
  }

  public ChineseDictionary(String[] dicts,
                           ChineseDocumentToSentenceProcessor cdtos,
                           boolean expandMidDot) {
    System.err.println("Loading Chinese dictionaries from "
                       +dicts.length
                       +" files:");
    for(String dict : dicts) {
      System.err.println("  "+dict);
    }
    System.err.println();

    for (int i = 0; i <= MAX_LEXICON_LENGTH; i++) {
      words_[i] = Generics.newHashSet();
    }

    this.cdtos_ = cdtos;

    for(String dict : dicts) {
      if(dict.endsWith("ser.gz")) {
        // TODO: the way this is written would not work if we allow
        // dictionaries to have different settings of MAX_LEXICON_LENGTH
        Set<String>[] dictwords = loadDictionary(dict);
        for (int i = 0; i <= MAX_LEXICON_LENGTH; i++) {
          words_[i].addAll(dictwords[i]);
          dictwords[i] = null;
        }
      } else {
        addDict(dict, expandMidDot);
      }
    }

    int total = 0;
    for(int i = 0; i <= MAX_LEXICON_LENGTH; i++) {
      total += words_[i].size();
    }
    System.err.println("Done. Unique words in ChineseDictionary is: " + total);
  }

  private final Pattern midDot = Pattern.compile(ChineseUtils.MID_DOT_REGEX_STR);

  private void addDict(String dict, boolean expandMidDot) {
    String content = IOUtils.slurpFileNoExceptions(dict,"utf-8");
    String[] lines = content.split("\n");
    System.err.println("  " + dict + ": " + lines.length + " entries");
    for (String line : lines) {
      line = line.trim();
      // normalize any midDot
      if (expandMidDot) {
        // normalize down middot chars
        line = line.replaceAll(ChineseUtils.MID_DOT_REGEX_STR, "\u00B7");
      }
      addOneDict(line);
      if (DEBUG) EncodingPrintWriter.err.println("ORIG: " + line, "UTF-8");
      if (expandMidDot && midDot.matcher(line).find()) {
        line = line.replaceAll(ChineseUtils.MID_DOT_REGEX_STR, "");
        if (DEBUG) EncodingPrintWriter.err.println("ALSO: " + line, "UTF-8");
        addOneDict(line);
      }
    }
  }

  private void addOneDict(String item) {
    int length = item.length();
    if (length == 0) {
      // Do nothing for empty items
    } else if (length <= MAX_LEXICON_LENGTH-1) {
      if (cdtos_ != null) {
        item = cdtos_.normalization(item);
      }
      if (DEBUG) EncodingPrintWriter.err.println("DICT: "+item, "UTF-8");
      words_[length].add(item);
    } else {
      // insist on new String as it may save memory
      String subitem = new String(item.substring(0,MAX_LEXICON_LENGTH));
      if (cdtos_ != null) {
        subitem = cdtos_.normalization(subitem);
      }
      if (DEBUG) EncodingPrintWriter.err.println("DICT: "+subitem, "UTF-8");
      // length=MAX_LEXICON_LENGTH and MAX_LEXICON_LENGTH+
      words_[MAX_LEXICON_LENGTH].add(subitem);
    }
  }

  public boolean contains(String word) {
    int length = word.length();
    if (length <= MAX_LEXICON_LENGTH-1) {
      return words_[length].contains(word);
    } else {
      length = MAX_LEXICON_LENGTH;
      return words_[length].contains(word.substring(0,6));
    }
  }

  public static void main(String[] args) {
    String inputDicts = "/u/nlp/data/chinese-dictionaries/plain/ne_wikipedia-utf8.txt,/u/nlp/data/chinese-dictionaries/plain/newsexplorer_entities_utf8.txt,/u/nlp/data/chinese-dictionaries/plain/Ch-name-list-utf8.txt,/u/nlp/data/chinese-dictionaries/plain/wikilex-20070908-zh-en.txt,/u/nlp/data/chinese-dictionaries/plain/adso-1.25-050405-monolingual-clean.utf8.txt,/u/nlp/data/chinese-dictionaries/plain/lexicon_108k_normalized.txt,/u/nlp/data/chinese-dictionaries/plain/lexicon_mandarintools_normalized.txt,/u/nlp/data/chinese-dictionaries/plain/harbin-ChineseNames_utf8.txt,/u/nlp/data/chinese-dictionaries/plain/lexicon_HowNet_normalized.txt";

    String output = "/u/nlp/data/gale/segtool/stanford-seg/classifiers/dict-chris6.ser.gz";


    Map<String,Integer> flagMap = Generics.newHashMap();
    flagMap.put("-inputDicts", 1);
    flagMap.put("-output", 1);
    Map<String,String[]> argsMap = StringUtils.argsToMap(args,flagMap);
    // args = argsMap.get(null);
    if(argsMap.keySet().contains("-inputDicts")) {
      inputDicts = argsMap.get("-inputDicts")[0];
    }
    if(argsMap.keySet().contains("-output")) {
      output = argsMap.get("-output")[0];
    }

    String[] dicts = inputDicts.split(",");

    ChineseDocumentToSentenceProcessor cdtos
      = new ChineseDocumentToSentenceProcessor(null);
    boolean expandMidDot = true;

    ChineseDictionary dict = new ChineseDictionary(dicts, cdtos, expandMidDot);
    dict.serializeDictionary(output);

    /*
    //ChineseDictionary dict = new ChineseDictionary(args[0]);
    for (int i = 0; i <= MAX_LEXICON_LENGTH; i++) {
      System.err.println("Length: " + i+": "+dict.words[i].size());
    }
    for (int i = 0; i <= MAX_LEXICON_LENGTH; i++) {
      System.err.println("Length: " + i+": "+dict.words[i].size());
      if (dict.words[i].size() < 1000) {
        for (String word : dict.words[i]) {
          EncodingPrintWriter.err.println(word, "UTF-8");
        }
      }
    }
    for  (int i = 1; i < args.length; i++) {
      System.err.println(args[i] + " " + Boolean.valueOf(dict.contains(args[i])).toString());
    }
    */
  }

}