CommonCrawlToNgram.java example

Explorer

languagetool-master
- languagetool-client-example
  - src
    - main
      - java
        org
        languagetool
        clientexample
        Example.java
- languagetool-commandline
  - src
    - main
      - java
        org
        languagetool
        commandline
        CommandLineOptions.java
        CommandLineParser.java
        CommandLineTools.java
        Main.java
        UnknownParameterException.java
        WrongParameterNumberException.java
    - test
      - java
        org
        languagetool
        commandline
        AbstractSecurityTestCase.java
        CommandLineParserTest.java
        CommandLineToolsTest.java
        MainTest.java
- languagetool-core
  - src
    - main
      - java
        org
        languagetool
        AnalyzedSentence.java
        AnalyzedToken.java
        AnalyzedTokenReadings.java
        ApiCleanupNeeded.java
        Experimental.java
        InputSentence.java
        JLanguageTool.java
        Language.java
        LanguageMaintainedState.java
        Languages.java
        MultiThreadedJLanguageTool.java
        ResourceBundleTools.java
        ResourceBundleWithFallback.java
        ResultCache.java
        RuleMatchListener.java
        SimpleInputSentence.java
        XMLValidator.java
        bitext
        BitextReader.java
        StringPair.java
        TabBitextReader.java
        WordFastTMReader.java
        chunking
        ChunkTag.java
        Chunker.java
        databroker
        DefaultResourceDataBroker.java
        ResourceDataBroker.java
        language
        Contributor.java
        Contributors.java
        LanguageBuilder.java
        LanguageIdentifier.java
        RuleFilenameException.java
        languagemodel
        BaseLanguageModel.java
        BerkeleyLanguageModel.java
        BerkeleyRawLanguageModel.java
        LanguageModel.java
        LuceneLanguageModel.java
        LuceneSingleIndexLanguageModel.java
        MultiLanguageModel.java
        markup
        AnnotatedText.java
        AnnotatedTextBuilder.java
        TextPart.java
        rules
        AbstractCompoundRule.java
        AbstractDashRule.java
        AbstractDateCheckFilter.java
        AbstractPunctuationCheckRule.java
        AbstractSimpleReplaceRule.java
        AbstractSimpleReplaceRule2.java
        AbstractSpaceBeforeRule.java
        AbstractWordCoherencyRule.java
        AdvancedWordRepeatRule.java
        Categories.java
        Category.java
        CategoryId.java
        CategoryIds.java
        CleanOverlappingFilter.java
        CommaWhitespaceRule.java
        CompoundRuleData.java
        ConfusionSet.java
        ConfusionSetLoader.java
        ConfusionString.java
        CorrectExample.java
        DateRangeChecker.java
        DemoRule.java
        DoublePunctuationRule.java
        ErrorTriggeringExample.java
        Example.java
        ExampleSentence.java
        GenericUnpairedBracketsRule.java
        ITSIssueType.java
        IncorrectExample.java
        LongSentenceRule.java
        MatchPosition.java
        MultipleWhitespaceRule.java
        OpenNMTRule.java
        PartialPosTagFilter.java
        Rule.java
        RuleMatch.java
        RuleMatchFilter.java
        RuleWithMaxFilter.java
        SameRuleGroupFilter.java
        SentenceWhitespaceRule.java
        ShortenedYearRangeChecker.java
        SimpleReplaceDataLoader.java
        SymbolLocator.java
        TextLevelRule.java
        UnsyncStack.java
        UppercaseSentenceStartRule.java
        WhitespaceBeforePunctuationRule.java
        WordCoherencyDataLoader.java
        WordRepeatBeginningRule.java
        WordRepeatRule.java
        WrongWordInContextRule.java
        bitext
        BitextRule.java
        DifferentLengthRule.java
        DifferentPunctuationRule.java
        IncorrectBitextExample.java
        SameTranslationRule.java
        ngrams
        ConfusionProbabilityRule.java
        GoogleToken.java
        NgramProbabilityRule.java
        Probability.java
        patterns
        AbstractPatternRule.java
        AbstractPatternRulePerformer.java
        CaseConversionHelper.java
        EquivalenceTypeLocator.java
        FalseFriendPatternRule.java
        FalseFriendRuleHandler.java
        FalseFriendRuleLoader.java
        IgnoreWhitespaceFilter.java
        Match.java
        MatchState.java
        PasswordAuthenticator.java
        PatternRule.java
        PatternRuleHandler.java
        PatternRuleId.java
        PatternRuleLoader.java
        PatternRuleMatcher.java
        PatternRuleXmlCreator.java
        PatternToken.java
        PatternTokenBuilder.java
        PatternTokenMatcher.java
        RegexPatternRule.java
        RuleFilter.java
        RuleFilterCreator.java
        RuleFilterEvaluator.java
        RuleMatcher.java
        Unifier.java
        UnifierConfiguration.java
        XMLRuleHandler.java
        bitext
        BitextPatternRule.java
        BitextPatternRuleHandler.java
        BitextPatternRuleLoader.java
        FalseFriendsAsBitextLoader.java
        spelling
        CachingWordListLoader.java
        SpellingCheckRule.java
        hunspell
        CompoundAwareHunspellRule.java
        Hunspell.java
        HunspellLibrary.java
        HunspellNoSuggestionRule.java
        HunspellRule.java
        morfologik
        MorfologikMultiSpeller.java
        MorfologikSpeller.java
        MorfologikSpellerRule.java
        synthesis
        BaseSynthesizer.java
        ManualSynthesizer.java
        Synthesizer.java
        SynthesizerTools.java
        tagging
        BaseTagger.java
        CombiningTagger.java
        ManualTagger.java
        MorfologikTagger.java
        TaggedWord.java
        Tagger.java
        WordTagger.java
        disambiguation
        AbstractDisambiguator.java
        Disambiguator.java
        MultiWordChunker.java
        rules
        DisambiguatedExample.java
        DisambiguationPatternRule.java
        DisambiguationPatternRuleReplacer.java
        DisambiguationRuleHandler.java
        DisambiguationRuleLoader.java
        XmlRuleDisambiguator.java
        xx
        DemoDisambiguator.java
        xx
        DemoTagger.java
        tokenizers
        CompoundWordTokenizer.java
        SRXSentenceTokenizer.java
        SentenceTokenizer.java
        SimpleSentenceTokenizer.java
        SrxTools.java
        Tokenizer.java
        WordTokenizer.java
        tools
        ContextTools.java
        JnaTools.java
        MultiKeyProperties.java
        RuleMatchAsXmlSerializer.java
        RuleMatchesAsJsonSerializer.java
        StringTools.java
        Tools.java
    - test
      - java
        org
        languagetool
        AnalyzedSentenceTest.java
        AnalyzedTokenReadingsTest.java
        AnalyzedTokenTest.java
        FakeLanguage.java
        InputSentenceTest.java
        MultiThreadedJLanguageToolTest.java
        ResourceBundleToolsTest.java
        TestTools.java
        ValidateFalseFriendsXmlTest.java
        VersionTest.java
        bitext
        TabBitextReaderTest.java
        WordFastTMReaderTest.java
        chunking
        xx
        DemoChunker.java
        language
        AbstractLanguageConcurrencyTest.java
        Demo.java
        LanguageBuilderTest.java
        languagemodel
        BaseLanguageModelTest.java
        LanguageModelTest.java
        LuceneSingleIndexLanguageModelTest.java
        MultiLanguageModelTest.java
        rules
        AbstractCompoundRuleTest.java
        CommaWhitespaceRuleTest.java
        ConfusionSetLoaderTest.java
        ConfusionSetTest.java
        DemoPartialPosTagFilter.java
        DoublePunctuationRuleTest.java
        FakeRule.java
        GenericUnpairedBracketsRuleTest.java
        LongSentenceRuleTest.java
        MultipleWhitespaceRuleTest.java
        OpenNMTRuleTest.java
        RuleWithMaxFilterTest.java
        SameRuleGroupFilterTest.java
        SentenceWhitespaceRuleTest.java
        UnsyncStackTest.java
        UppercaseSentenceStartRuleTest.java
        WhitespaceBeforePunctuationRuleTest.java
        WordRepeatRuleTest.java
        bitext
        BitextPatternRuleTest.java
        DifferentLengthRuleTest.java
        DifferentPunctuationRuleTest.java
        SameTranslationRuleTest.java
        ngrams
        ConfusionProbabilityRuleTest.java
        FakeLanguageModel.java
        GoogleTokenTest.java
        patterns
        AbstractPatternRulePerformerTest.java
        DemoPatternRuleTest.java
        MatchStateTest.java
        MatchTest.java
        MockFilter.java
        PatternRuleHandlerTest.java
        PatternRuleLoaderPermissionTest.java
        PatternRuleLoaderTest.java
        PatternRuleMatcherTest.java
        PatternRuleTest.java
        PatternRuleXmlCreatorTest.java
        PatternTestTools.java
        PatternTokenTest.java
        RegexPatternRuleTest.java
        RuleFilterCreatorTest.java
        RuleFilterEvaluatorTest.java
        UnifierTest.java
        spelling
        morfologik
        MorfologikMultiSpellerTest.java
        MorfologikSpellerTest.java
        synthesis
        ManualSynthesizerAdapter.java
        ManualSynthesizerTest.java
        tagging
        CombiningTaggerTest.java
        MorfologikTaggerTest.java
        disambiguation
        rules
        DisambiguationRuleTest.java
        xx
        DemoDisambiguationFilter.java
        DemoDisambiguator2.java
        tokenizers
        ManualTaggerAdapter.java
        ManualTaggerAdapterTest.java
        SimpleSentenceTokenizerTest.java
        WordTokenizerTest.java
        tools
        ContextToolsTest.java
        RuleMatchAsXmlSerializerTest.java
        RuleMatchesAsJsonSerializerTest.java
        StringToolsTest.java
        ToolsTest.java
- languagetool-dev
  - src
    - main
      - java
        org
        languagetool
        dev
        EmptyLuceneIndexCreator.java
        ExampleSentenceCorrectionCreator.java
        ExampleSentencePrinter.java
        ExportGermanNouns.java
        GermanTaggerEnhancer.java
        MissingGenitiveFinder.java
        POSTagLanguageModel.java
        RuleActivityOverview.java
        RuleOverview.java
        RuleSimplifier.java
        SentenceChecker.java
        SimpleRuleCounter.java
        StartTokenCounter.java
        UselessExampleFinder.java
        WordTokenizer.java
        XmlUsageCounter.java
        bigdata
        AggregatedNgramToLucene.java
        AllConfusionRulesEvaluator.java
        AutomaticConfusionRuleEvaluator.java
        AutomaticConfusionRuleEvaluatorFilter.java
        CommonCrawlToNgram.java
        CommonCrawlToNgram3.java
        ConfusionFileIndenter.java
        ConfusionRuleEvaluator.java
        ConfusionSetOccurrenceLookup.java
        ContextBuilder.java
        FrequencyIndexCreator.java
        GermanAuxVerbGuesser.java
        GermanAuxVerbGuesser2.java
        GermanReflexiveVerbGuesser.java
        GermanSpellingReformGuesser.java
        GermanUpperLowercaseWords.java
        GermanUppercasePhraseFinder.java
        LargestNGramFinder.java
        LuceneSimpleIndexCreator.java
        NGramLookup.java
        NGramUrlGenerator.java
        OccurrenceAdder.java
        TextIndexCreator.java
        blogs
        BlogChecker.java
        errorcorpus
        Error.java
        ErrorCorpus.java
        ErrorSentence.java
        PedlerCorpus.java
        SimpleCorpus.java
        eval
        AfterTheDeadlineEvaluator.java
        AtDEvaluator.java
        CheckBNC.java
        Evaluator.java
        FMeasure.java
        LanguageToolEvaluator.java
        PrecisionRecall.java
        RealWordCorpusEvaluator.java
        RealWordFalseAlarmEvaluator.java
        SimpleCorpusEvaluator.java
        Span.java
        SpellCheckEvaluation.java
        wiktionary
        HomophoneExtractor.java
        wordsimilarity
        BaseKeyboardDistance.java
        GermanQwertzKeyboardDistance.java
        KeyboardDistance.java
        QwertyKeyboardDistance.java
        SimilarWordFinder.java
    - test
      - java
        org
        languagetool
        dev
        FrequencyIndexCreatorTest.java
        bigdata
        CommonCrawlToNgramTest.java
        ContextBuilderTest.java
        LanguageModelSanityTest.java
        errorcorpus
        ErrorSentenceTest.java
        PedlerCorpusTest.java
        eval
        AfterTheDeadlineEvaluatorTest.java
        LanguageDetectionEval.java
        LanguageDetectionTrainer.java
        RealWordCorpusEvaluatorTest.java
        wordsimilarity
        GermanQwertzKeyboardDistanceTest.java
- languagetool-gui-commons
  - src
    - main
      - java
        org
        languagetool
        gui
        AboutDialog.java
        CategoryNode.java
        CheckBoxTreeCellRenderer.java
        Configuration.java
        ConfigurationDialog.java
        RuleNode.java
        SavablePanel.java
        Tools.java
        TreeListener.java
    - test
      - java
        org
        languagetool
        gui
        ToolsTest.java
- languagetool-http-client
  - src
    - main
      - java
        org
        languagetool
        remote
        CheckConfiguration.java
        CheckConfigurationBuilder.java
        RemoteLanguageTool.java
        RemoteResult.java
        RemoteRuleMatch.java
        RemoteServer.java
    - test
      - java
        org
        languagetool
        remote
        CheckConfigurationBuilderTest.java
        CheckConfigurationTest.java
        HTTPTools.java
        RemoteLanguageToolIntegrationTest.java
        RemoteLanguageToolTest.java
- languagetool-language-modules
  - ast
    - src
      - main
        java
        org
        languagetool
        language
        Asturian.java
        rules
        ast
        MorfologikAsturianSpellerRule.java
        tagging
        ast
        AsturianTagger.java
      - test
        java
        org
        languagetool
        AsturianConcurrencyTest.java
        language
        rules
        ast
        MorfologikAsturianSpellerRuleTest.java
        rules
        ast
        AsturianPatternRuleTest.java
        tokenizers
        ast
        AsturianSRXSentenceTokenizerTest.java
  - be
    - src
      - main
        java
        org
        languagetool
        language
        Belarusian.java
        rules
        be
        MorfologikBelarusianSpellerRule.java
      - test
        java
        org
        languagetool
        BelarusianConcurrencyTest.java
        rules
        be
        BelarusianPatternRuleTest.java
  - br
    - src
      - main
        java
        org
        languagetool
        language
        Breton.java
        rules
        br
        DateCheckFilter.java
        MorfologikBretonSpellerRule.java
        TopoReplaceRule.java
        tagging
        br
        BretonTagger.java
        tokenizers
        br
        BretonWordTokenizer.java
      - test
        java
        org
        languagetool
        BretonConcurrencyTest.java
        rules
        br
        BretonPatternRuleTest.java
        MorfologikBretonSpellerRuleTest.java
        TopoReplaceRuleTest.java
        tokenizers
        br
        BretonWordTokenizerTest.java
  - ca
    - src
      - main
        java
        org
        languagetool
        language
        Catalan.java
        ValencianCatalan.java
        rules
        ca
        AccentuationCheckRule.java
        AccentuationDataLoader.java
        CatalanUnpairedBracketsRule.java
        CatalanUnpairedExclamationMarksRule.java
        CatalanUnpairedQuestionMarksRule.java
        CatalanWordRepeatRule.java
        CatalanWrongWordInContextRule.java
        ComplexAdjectiveConcordanceRule.java
        DateCheckFilter.java
        MorfologikCatalanSpellerRule.java
        ReflexiveVerbsRule.java
        ReplaceOperationNamesRule.java
        SimpleReplaceBalearicRule.java
        SimpleReplaceRule.java
        SimpleReplaceVerbsRule.java
        synthesis
        ca
        CatalanSynthesizer.java
        tagging
        ca
        CatalanTagger.java
        disambiguation
        ca
        CatalanHybridDisambiguator.java
        tokenizers
        ca
        CatalanWordTokenizer.java
      - test
        java
        org
        languagetool
        CatalanConcurrencyTest.java
        JLanguageToolTest.java
        ValencianCatalanConcurrencyTest.java
        rules
        ca
        AccentuationCheckRuleTest.java
        CatalanPatternRuleTest.java
        CatalanUnpairedBracketsRuleTest.java
        CatalanWordRepeatRuleTest.java
        CatalanWrongWordInContextRuleTest.java
        ComplexAdjectiveConcordanceRuleTest.java
        MorfologikCatalanSpellerRuleTest.java
        ReflexiveVerbsRuleTest.java
        ReplaceOperationNamesRuleTest.java
        SimpleReplaceBalearicRuleTest.java
        SimpleReplaceRuleTest.java
        SimpleReplaceVerbsRuleTest.java
        synthesis
        ca
        CatalanSynthesizerTest.java
        tagging
        ca
        CatalanTaggerTest.java
        disambiguation
        CatalanDisambiguationRuleTest.java
        tokenizers
        ca
        CatalanSentenceTokenizerTest.java
        CatalanWordTokenizerTest.java
  - da
    - src
      - main
        java
        org
        languagetool
        language
        Danish.java
        tagging
        da
        DanishTagger.java
      - test
        java
        org
        languagetool
        DanishConcurrencyTest.java
        rules
        da
        DanishPatternRuleTest.java
        tokenizers
        da
        DanishSRXSentenceTokenizerTest.java
  - de
    - src
      - main
        java
        org
        languagetool
        chunking
        ChunkTaggedToken.java
        GermanChunker.java
        TokenExpressionFactory.java
        TokenPredicate.java
        language
        AustrianGerman.java
        German.java
        GermanyGerman.java
        SwissGerman.java
        rules
        de
        AgreementRule.java
        AgreementSuggestor.java
        CaseRule.java
        CaseRuleExceptions.java
        CompoundRule.java
        DashRule.java
        DateCheckFilter.java
        GermanConfusionProbabilityRule.java
        GermanDoublePunctuationRule.java
        GermanHelper.java
        GermanSpellerRule.java
        GermanWordRepeatBeginningRule.java
        GermanWordRepeatRule.java
        GermanWrongWordInContextRule.java
        LineExpander.java
        MissingVerbRule.java
        MorfologikGermanyGermanSpellerRule.java
        OldSpellingData.java
        OldSpellingRule.java
        OldSpellingRuleWithSuggestion.java
        RecentYearFilter.java
        SentenceWhitespaceRule.java
        SimilarNameRule.java
        SubjectVerbAgreementRule.java
        UppercaseNounReadingFilter.java
        VerbAgreementRule.java
        WiederVsWiderRule.java
        WordCoherencyRule.java
        YMDDateCheckFilter.java
        synthesis
        GermanSynthesizer.java
        tagging
        de
        AnalyzedGermanToken.java
        GermanTagger.java
        GermanToken.java
        disambiguation
        rules
        de
        GermanRuleDisambiguator.java
        tokenizers
        de
        GermanCompoundTokenizer.java
      - test
        java
        org
        languagetool
        AustrianGermanConcurrencyTest.java
        GermanyGermanConcurrencyTest.java
        JLanguageToolTest.java
        SwissGermanConcurrencyTest.java
        chunking
        GermanChunkerTest.java
        TokenPredicateTest.java
        rules
        de
        AgreementRuleTest.java
        AgreementSuggestorTest.java
        CaseRuleTest.java
        CompoundRuleTest.java
        DashRuleTest.java
        DateCheckFilterTest.java
        GenericUnpairedBracketsRuleTest.java
        GermanConfusionProbabilityRuleTest.java
        GermanHelperTest.java
        GermanPatternRuleTest.java
        GermanSpellerRuleTest.java
        GermanWordRepeatBeginningRuleTest.java
        GermanWrongWordInContextRuleTest.java
        LineExpanderTest.java
        MissingVerbRuleTest.java
        MorfologikGermanyGermanSpellerRuleTest.java
        OldSpellingRuleTest.java
        SentenceWhitespaceRuleTest.java
        SimilarNameRuleTest.java
        SubjectVerbAgreementRuleTest.java
        UppercaseSentenceStartRuleTest.java
        VerbAgreementRuleTest.java
        WiederVsWiderRuleTest.java
        WordCoherencyRuleTest.java
        WordRepeatRuleTest.java
        spelling
        hunspell
        HunspellRuleTest.java
        SpellingCheckRuleTest.java
        synthesis
        GermanSynthesizerTest.java
        tagging
        de
        GermanTaggerTest.java
        disambiguation
        rules
        de
        GermanDisambiguationRuleTest.java
        tokenizers
        de
        GermanSRXSentenceTokenizerTest.java
  - de-DE-x-simple-language
    - src
      - main
        java
        org
        languagetool
        language
        SimpleGerman.java
      - test
        java
        org
        languagetool
        SimpleGermanConcurrencyTest.java
        rules
        de
        SimpleGermanPatternRuleTest.java
  - el
    - src
      - main
        java
        org
        languagetool
        language
        Greek.java
        rules
        el
        MorfologikGreekSpellerRule.java
        NumeralStressRule.java
        synthesis
        el
        GreekSynthesizer.java
        tagging
        el
        GreekTagger.java
        tokenizers
        el
        GreekWordTokenizer.java
        GreekWordTokenizerImpl.java
      - test
        java
        org
        languagetool
        GreekConcurrencyTest.java
        rules
        el
        GreekPatternRuleTest.java
        NumeralStressRuleTest.java
  - en
    - src
      - main
        java
        org
        languagetool
        chunking
        ChunkTaggedToken.java
        EnglishChunkFilter.java
        EnglishChunker.java
        language
        AmericanEnglish.java
        AustralianEnglish.java
        BritishEnglish.java
        CanadianEnglish.java
        English.java
        NewZealandEnglish.java
        SouthAfricanEnglish.java
        rules
        en
        AbstractEnglishSpellerRule.java
        AvsAnData.java
        AvsAnRule.java
        BritishReplaceRule.java
        CompoundRule.java
        ContractionSpellingRule.java
        DateCheckFilter.java
        EnglishConfusionProbabilityRule.java
        EnglishDashRule.java
        EnglishNgramProbabilityRule.java
        EnglishPartialPosTagFilter.java
        EnglishUnpairedBracketsRule.java
        EnglishWordRepeatBeginningRule.java
        EnglishWordRepeatRule.java
        EnglishWrongWordInContextRule.java
        GoogleStyleWordTokenizer.java
        MorfologikAmericanSpellerRule.java
        MorfologikAustralianSpellerRule.java
        MorfologikBritishSpellerRule.java
        MorfologikCanadianSpellerRule.java
        MorfologikNewZealandSpellerRule.java
        MorfologikSouthAfricanSpellerRule.java
        NewZealandReplaceRule.java
        NoDisambiguationEnglishPartialPosTagFilter.java
        YMDDateCheckFilter.java
        synthesis
        en
        EnglishSynthesizer.java
        tagging
        en
        EnglishTagger.java
        tokenizers
        en
        EnglishWordTokenizer.java
      - test
        java
        org
        languagetool
        AmericanEnglishConcurrencyTest.java
        AustralianEnglishConcurrencyTest.java
        BritishEnglishConcurrencyTest.java
        CanadianEnglishConcurrencyTest.java
        JLanguageToolTest.java
        NewZealandEnglishConcurrencyTest.java
        SouthAfricanEnglishConcurrencyTest.java
        SpellIgnoreTest.java
        chunking
        EnglishChunkFilterTest.java
        EnglishChunkerTest.java
        rules
        en
        AbstractEnglishSpellerRuleTest.java
        AvsAnRuleTest.java
        BritishReplaceRuleTest.java
        CompoundRuleTest.java
        ContractionSpellingRuleTest.java
        DateCheckFilterTest.java
        EnglishConfusionProbabilityRuleTest.java
        EnglishDashRuleTest.java
        EnglishPatternRuleTest.java
        EnglishUnpairedBracketsRuleTest.java
        EnglishWordRepeatRuleTest.java
        EnglishWrongWordInContextRuleTest.java
        GoogleStyleWordTokenizerTest.java
        MorfologikAmericanSpellerRuleTest.java
        MorfologikAustralianSpellerRuleTest.java
        MorfologikBritishSpellerRuleTest.java
        MorfologikCanadianSpellerRuleTest.java
        MorfologikNewZealandSpellerRuleTest.java
        MorfologikSouthAfricanSpellerRuleTest.java
        NewZealandReplaceRuleTest.java
        SpellingCheckRuleTest.java
        UppercaseSentenceStartRuleTest.java
        WordRepeatRuleTest.java
        synthesis
        en
        EnglishSynthesizerTest.java
        tagging
        disambiguation
        rules
        en
        EnglishDisambiguationRuleTest.java
        en
        EnglishTaggerTest.java
        tokenizers
        EnglishSRXSentenceTokenizerTest.java
        en
        EnglishWordTokenizerTest.java
        tools
        ToolsTest.java
  - eo
    - src
      - main
        java
        org
        languagetool
        language
        Esperanto.java
        rules
        eo
        DateCheckFilter.java
        tagging
        eo
        EsperantoTagger.java
        tokenizers
        eo
        EsperantoWordTokenizer.java
      - test
        java
        org
        languagetool
        EsperantoConcurrencyTest.java
        EsperantoTest.java
        rules
        eo
        EsperantoPatternRuleTest.java
        tagging
        eo
        EsperantoTaggerTest.java
        tokenizers
        eo
        EsperantoWordTokenizerTest.java
  - es
    - src
      - main
        java
        org
        languagetool
        language
        Spanish.java
        rules
        es
        MorfologikSpanishSpellerRule.java
        SpanishConfusionProbabilityRule.java
        synthesis
        es
        SpanishSynthesizer.java
        tagging
        disambiguation
        es
        SpanishHybridDisambiguator.java
        es
        SpanishTagger.java
        tokenizers
        es
        SpanishWordTokenizer.java
      - test
        java
        org
        languagetool
        SpanishConcurrencyTest.java
        rules
        es
        GenericUnpairedBracketsRuleTest.java
        MorfologikSpanishSpellerRuleTest.java
        SpanishConfusionProbabilityRuleTest.java
        SpanishPatternRuleTest.java
        synthesis
        es
        SpanishSynthesizerTest.java
        tagging
        es
        SpanishTaggerTest.java
  - fa
    - src
      - main
        java
        org
        languagetool
        language
        Persian.java
        rules
        fa
        PersianCommaWhitespaceRule.java
        PersianDoublePunctuationRule.java
        PersianSpaceBeforeRule.java
        PersianWordRepeatBeginningRule.java
        PersianWordRepeatRule.java
        SimpleReplaceRule.java
        WordCoherencyRule.java
        tokenizers
        PersianWordTokenizer.java
      - test
        java
        org
        languagetool
        rules
        fa
        PersianPatternRuleTest.java
        PersianSpaceBeforeRuleTest.java
        WordCoherencyRuleTest.java
        tokenizers
        PersianSRXSentenceTokenizerTest.java
  - fr
    - src
      - main
        java
        org
        languagetool
        language
        French.java
        rules
        fr
        CompoundRule.java
        DMYDateCheckFilter.java
        DateCheckFilter.java
        FrenchConfusionProbabilityRule.java
        FrenchPartialPosTagFilter.java
        QuestionWhitespaceRule.java
        synthesis
        FrenchSynthesizer.java
        tagging
        disambiguation
        fr
        FrenchHybridDisambiguator.java
        fr
        FrenchTagger.java
      - test
        java
        org
        languagetool
        FrenchConcurrencyTest.java
        rules
        fr
        FrenchConfusionProbabilityRuleTest.java
        FrenchPatternRuleTest.java
        GenericUnpairedBracketsRuleTest.java
        QuestionWhitespaceRuleTest.java
        spelling
        hunspell
        HunspellRuleTest.java
        TestFrenchDisambiguator.java
        synthesis
        fr
        FrenchSynthesizerTest.java
        tagging
        disambiguation
        rules
        fr
        FrenchRuleDisambiguatorTest.java
        fr
        FrenchTaggerTest.java
  - gl
    - src
      - main
        java
        org
        languagetool
        language
        Galician.java
        rules
        gl
        CastWordsRule.java
        SimpleReplaceRule.java
        synthesis
        gl
        GalicianSynthesizer.java
        tagging
        gl
        GalicianTagger.java
        tokenizers
        gl
        GalicianWordTokenizer.java
      - test
        java
        org
        languagetool
        GalicianConcurrencyTest.java
        rules
        gl
        GalicianPatternRuleTest.java
        tagging
        gl
        GalicianTaggerTest.java
  - is
    - src
      - main
        java
        org
        languagetool
        language
        Icelandic.java
      - test
        java
        org
        languagetool
        IcelandicConcurrencyTest.java
        rules
        is
        IcelandicPatternRuleTest.java
  - it
    - src
      - main
        java
        org
        languagetool
        language
        Italian.java
        rules
        it
        ItalianConfusionProbabilityRule.java
        ItalianWordRepeatRule.java
        MorfologikItalianSpellerRule.java
        tagging
        disambiguation
        rules
        it
        ItalianRuleDisambiguator.java
        it
        ItalianTagger.java
      - test
        java
        org
        languagetool
        ItalianConcurrencyTest.java
        rules
        it
        ItalianPatternRuleTest.java
        tagging
        it
        ItalianTaggerTest.java
        tokenizers
        it
        ItalianSRXSentenceTokenizerTest.java
  - ja
    - src
      - main
        java
        org
        languagetool
        language
        Japanese.java
        tagging
        ja
        JapaneseTagger.java
        tokenizers
        ja
        JapaneseWordTokenizer.java
      - test
        java
        org
        languagetool
        JLanguageToolTest.java
        JapaneseConcurrencyTest.java
        rules
        ja
        JapanesePatternRuleTest.java
        tagging
        ja
        JapaneseTaggerTest.java
        tokenizers
        ja
        JapaneseSRXSentenceTokenizerTest.java
        JapaneseWordTokenizerTest.java
  - km
    - src
      - main
        java
        org
        languagetool
        language
        Khmer.java
        rules
        km
        KhmerSimpleReplaceRule.java
        KhmerSpaceBeforeRule.java
        KhmerUnpairedBracketsRule.java
        KhmerWordRepeatRule.java
        tagging
        km
        KhmerTagger.java
        tokenizers
        km
        KhmerWordTokenizer.java
      - test
        java
        org
        languagetool
        KhmerConcurrencyTest.java
        rules
        km
        KhmerPatternRuleTest.java
        KhmerSpaceBeforeRuleTest.java
        KhmerWordRepeatRuleTest.java
  - lt
    - src
      - main
        java
        org
        languagetool
        language
        Lithuanian.java
        rules
        lt
        MorfologikLithuanianSpellerRule.java
      - test
        java
        org
        languagetool
        LithuanianConcurrencyTest.java
        rules
        lt
        LithuanianPatternRuleTest.java
        tokenizers
        lt
        LithuanianSRXSentenceTokenizerTest.java
  - ml
    - src
      - main
        java
        org
        languagetool
        language
        Malayalam.java
        rules
        ml
        MorfologikMalayalamSpellerRule.java
        tagging
        ml
        MalayalamTagger.java
        tokenizers
        ml
        MalayalamWordTokenizer.java
      - test
        java
        org
        languagetool
        MalayalamConcurrencyTest.java
        rules
        ml
        MalayalamPatternRuleTest.java
        MorfologikMalayalamSpellerRuleTest.java
        tokenizers
        ml
        MalayalamSRXSentenceTokenizerTest.java
  - nl
    - src
      - main
        java
        org
        languagetool
        language
        Dutch.java
        rules
        nl
        CompoundRule.java
        DateCheckFilter.java
        DutchWrongWordInContextRule.java
        MorfologikDutchSpellerRule.java
        SimpleReplaceRule.java
        synthesis
        nl
        DutchSynthesizer.java
        tagging
        nl
        DutchTagger.java
        tokenizers
        nl
        DutchWordTokenizer.java
      - test
        java
        org
        languagetool
        DutchConcurrencyTest.java
        JLanguageToolTest.java
        rules
        nl
        DateCheckFilterTest.java
        DutchPatternRuleTest.java
        DutchWrongWordInContextRuleTest.java
        GenericUnpairedBracketsRuleTest.java
        MorfologikDutchSpellerRuleTest.java
        SimpleReplaceRuleTest.java
        UppercaseSentenceStartRuleTest.java
        synthesis
        nl
        DutchSynthesizerTest.java
        tagging
        nl
        DutchTaggerTest.java
        tokenizers
        nl
        DutchSRXSentenceTokenizerTest.java
        DutchWordTokenizerTest.java
  - pl
    - src
      - main
        java
        org
        languagetool
        language
        Polish.java
        rules
        pl
        CompoundRule.java
        DashRule.java
        DateCheckFilter.java
        DecadeSpellingFilter.java
        MorfologikPolishSpellerRule.java
        PolishUnpairedBracketsRule.java
        PolishWordRepeatRule.java
        SimpleReplaceRule.java
        synthesis
        pl
        PolishSynthesizer.java
        tagging
        disambiguation
        pl
        PolishHybridDisambiguator.java
        pl
        PolishTagger.java
        tokenizers
        pl
        PolishWordTokenizer.java
      - test
        java
        org
        languagetool
        JLanguageToolTest.java
        PolishConcurrencyTest.java
        rules
        pl
        CompoundRuleTest.java
        DashRuleTest.java
        DateCheckFilterTest.java
        MatchTest.java
        MorfologikPolishSpellerRuleTest.java
        MultipleWhitespaceRuleTest.java
        PolishPatternRuleTest.java
        PolishUnpairedBracketsRuleTest.java
        PolishWordRepeatRuleTest.java
        SimpleReplaceRuleTest.java
        UppercaseSentenceStartRuleTest.java
        WordRepeatRuleTest.java
        synthesis
        pl
        PolishSynthesizerTest.java
        tagging
        disambiguation
        PolishDisambiguationRuleTest.java
        pl
        PolishTaggerTest.java
        tokenizers
        pl
        PolishSentenceTokenizerTest.java
        PolishWordTokenizerTest.java
        tools
        ToolsTest.java
  - pt
    - src
      - main
        java
        org
        languagetool
        language
        AngolaPortuguese.java
        BrazilianPortuguese.java
        MozambiquePortuguese.java
        PortugalPortuguese.java
        Portuguese.java
        rules
        pt
        DateCheckFilter.java
        NoDisambiguationPortuguesePartialPosTagFilter.java
        PortugalPortugueseReplaceRule.java
        PortugueseAccentuationCheckRule.java
        PortugueseAccentuationDataLoader.java
        PortugueseAgreementReplaceRule.java
        PortugueseClicheRule.java
        PortugueseConfusionProbabilityRule.java
        PortugueseRedundancyRule.java
        PortugueseReplaceRule.java
        PortugueseReplaceRule2.java
        PortugueseWikipediaRule.java
        PortugueseWordCoherencyRule.java
        PortugueseWordRepeatBeginningRule.java
        PortugueseWordRepeatRule.java
        PortugueseWordynessRule.java
        PortugueseWrongWordInContextRule.java
        PostReformPortugueseCompoundRule.java
        PostReformPortugueseDashRule.java
        PreReformPortugueseCompoundRule.java
        PreReformPortugueseDashRule.java
        synthesis
        pt
        PortugueseSynthesizer.java
        tagging
        disambiguation
        pt
        PortugueseHybridDisambiguator.java
        pt
        PortugueseTagger.java
        tokenizers
        pt
        PortugueseWordTokenizer.java
      - test
        java
        org
        languagetool
        BrazilianPortugueseConcurrencyTest.java
        PortugalPortugueseConcurrencyTest.java
        rules
        pt
        PortugueseClicheRuleTest.java
        PortuguesePatternRuleTest.java
        PortugueseWikipediaRuleTest.java
        PortugueseWordRepeatBeginningRuleTest.java
        PortugueseWordRepeatRuleTest.java
        synthesis
        pt
        PortugueseSynthesizerTest.java
        tagging
        pt
        PortugueseTaggerTest.java
        tokenizers
        pt
        PortugueseSRXSentenceTokenizerTest.java
        PortugueseWordTokenizerTest.java
  - ro
    - src
      - main
        java
        org
        languagetool
        language
        Romanian.java
        rules
        ro
        CompoundRule.java
        MorfologikRomanianSpellerRule.java
        RomanianWordRepeatBeginningRule.java
        SimpleReplaceRule.java
        synthesis
        ro
        RomanianSynthesizer.java
        tagging
        ro
        RomanianTagger.java
        tokenizers
        ro
        RomanianWordTokenizer.java
      - test
        java
        org
        languagetool
        RomanianConcurrencyTest.java
        rules
        ro
        CompoundRuleTest.java
        GenericUnpairedBracketsRuleTest.java
        RomanianPatternRuleTest.java
        SimpleReplaceRuleTest.java
        synthesis
        ro
        RomanianSynthesizerTest.java
        tagging
        disambiguation
        rules
        ro
        RomanianRuleDisambiguatorTest.java
        ro
        AbstractRomanianTaggerTest.java
        RomanianTaggerDiacriticsTest.java
        RomanianTaggerTest.java
        tokenizers
        ro
        RomanianSentenceTokenizerTest.java
        RomanianWordTokenizerTest.java
  - ru
    - src
      - main
        java
        org
        languagetool
        language
        Russian.java
        rules
        ru
        DateCheckFilter.java
        MorfologikRussianSpellerRule.java
        RussianCompoundRule.java
        RussianConfusionProbabilityRule.java
        RussianPartialPosTagFilter.java
        RussianSimpleReplaceRule.java
        RussianUnpairedBracketsRule.java
        RussianWordCoherencyRule.java
        RussianWordRepeatRule.java
        synthesis
        ru
        RussianSynthesizer.java
        tagging
        disambiguation
        ru
        RussianHybridDisambiguator.java
        ru
        RussianTagger.java
      - test
        java
        org
        languagetool
        RussianConcurrencyTest.java
        rules
        ru
        DateCheckFilterTest.java
        RussianCompoundRuleTest.java
        RussianPatternRuleTest.java
        RussianSimpleReplaceRuleTest.java
        RussianUnpairedBracketsRuleTest.java
        RussianWordCoherencyRuleTest.java
        synthesis
        ru
        RussianSynthesizerTest.java
        tagging
        ru
        RussianTaggerTest.java
        tokenizers
        ru
        RussianSRXSentenceTokenizerTest.java
  - sk
    - src
      - main
        java
        org
        languagetool
        language
        Slovak.java
        rules
        sk
        CompoundRule.java
        MorfologikSlovakSpellerRule.java
        synthesis
        sk
        SlovakSynthesizer.java
        tagging
        sk
        SlovakTagger.java
      - test
        java
        org
        languagetool
        SlovakConcurrencyTest.java
        rules
        sk
        CompoundRuleTest.java
        SlovakPatternRuleTest.java
        synthesis
        sk
        SlovakSynthesizerTest.java
        tagging
        sk
        SlovakTaggerTest.java
        tokenizers
        sk
        SlovakSentenceTokenizerTest.java
  - sl
    - src
      - main
        java
        org
        languagetool
        language
        Slovenian.java
        rules
        sl
        MorfologikSlovenianSpellerRule.java
      - test
        java
        org
        languagetool
        JLanguageToolTest.java
        SlovenianConcurrencyTest.java
        rules
        sl
        SlovenianPatternRuleTest.java
  - sv
    - src
      - main
        java
        org
        languagetool
        language
        Swedish.java
        rules
        sv
        CompoundRule.java
        tagging
        sv
        SwedishTagger.java
      - test
        java
        org
        languagetool
        SwedishConcurrencyTest.java
        rules
        sv
        CompoundRuleTest.java
        SwedishPatternRuleTest.java
        tagging
        sv
        SwedishTaggerTest.java
        tokenizers
        sv
        SwedishSRXSentenceTokenizerTest.java
  - ta
    - src
      - main
        java
        org
        languagetool
        language
        Tamil.java
        tagging
        TamilTagger.java
      - test
        java
        org
        languagetool
        rules
        ta
        TamilPatternRuleTest.java
  - tl
    - src
      - main
        java
        org
        languagetool
        language
        Tagalog.java
        tl
        MorfologikTagalogSpellerRule.java
        tokenizers
        TagalogWordTokenizer.java
        tagging
        tl
        TagalogTagger.java
      - test
        java
        org
        languagetool
        TagalogConcurrencyTest.java
        language
        tl
        MorfologikTagalogSpellerRuleTest.java
        rules
        tl
        TagalogPatternRuleTest.java
        tokenizers
        tl
        TagalogSRXSentenceTokenizerTest.java
  - uk
    - src
      - main
        java
        org
        languagetool
        language
        Ukrainian.java
        rules
        uk
        CaseGovernmentHelper.java
        DateCheckFilter.java
        HiddenCharacterRule.java
        InflectionHelper.java
        LemmaHelper.java
        MixedAlphabetsRule.java
        MorfologikUkrainianSpellerRule.java
        PunctuationCheckRule.java
        SimpleReplaceRule.java
        SimpleReplaceSoftRule.java
        TokenAgreementRule.java
        TokenInflectionAgreementRule.java
        TokenInflectionExceptionHelper.java
        TokenVerbAgreementExceptionHelper.java
        TokenVerbAgreementRule.java
        UkrainianWordRepeatRule.java
        synthesis
        uk
        UkrainianSynthesizer.java
        tagging
        disambiguation
        uk
        UkrainianHybridDisambiguator.java
        uk
        CompoundTagger.java
        IPOSTag.java
        PosTagHelper.java
        UkrainianTagger.java
        tokenizers
        uk
        UkrainianWordTokenizer.java
      - test
        java
        org
        languagetool
        UkrainianConcurrencyTest.java
        rules
        uk
        DateCheckFilterTest.java
        HiddenCharacterRuleTest.java
        MixedAlphabetsRuleTest.java
        MorfologikUkrainianSpellerRuleTest.java
        PunctuationCheckRuleTest.java
        SimpleReplaceRuleTest.java
        SimpleReplaceSoftRuleTest.java
        TokenAgreementRuleTest.java
        TokenInflectionAgreementRuleTest.java
        TokenVerbAgreementRuleTest.java
        UkrainianPatternRuleTest.java
        UkrainianWordRepeatRuleTest.java
        UppercaseSentenceStartRuleTest.java
        synthesis
        uk
        UkrainianSynthesizerTest.java
        tagging
        disambiguation
        rules
        uk
        UkrainianDisambiguationRuleTest.java
        uk
        UkrainianTaggerTest.java
        tokenizers
        uk
        UkrainianSRXSentenceTokenizerTest.java
        UkrainianWordTokenizerTest.java
  - zh
    - src
      - main
        java
        org
        languagetool
        language
        Chinese.java
        rules
        zh
        ChineseConfusionProbabilityRule.java
        tagging
        zh
        ChineseTagger.java
        tokenizers
        zh
        ChineseSentenceTokenizer.java
        ChineseWordTokenizer.java
      - test
        java
        org
        languagetool
        ChineseConcurrencyTest.java
        rules
        zh
        ChinesePatternRuleTest.java
        tagging
        zh
        ChineseTaggerTest.java
        tokenizers
        zh
        ChineseSentenceTokenizerTest.java
        ChineseWordTokenizerTest.java
- languagetool-office-extension
  - src
    - main
      - java
        org
        languagetool
        openoffice
        ConfigThread.java
        ErrorPositionComparator.java
        KhmerDetector.java
        LanguageDetector.java
        Main.java
        SingletonFactory.java
        TamilDetector.java
    - test
      - java
        org
        languagetool
        openoffice
        KhmerDetectorTest.java
        MainTest.java
        TamilDetectorTest.java
- languagetool-server
  - src
    - main
      - java
        org
        languagetool
        server
        ApiV2.java
        HTTPSServer.java
        HTTPSServerConfig.java
        HTTPServer.java
        HTTPServerConfig.java
        IllegalConfigurationException.java
        LanguageToolHttpHandler.java
        PortBindingException.java
        RequestLimiter.java
        Server.java
        ServerTools.java
        TextChecker.java
        TextTooLongException.java
        V2TextChecker.java
    - test
      - java
        org
        languagetool
        server
        ApiV2Test.java
        ExampleSentence.java
        ExampleSentenceProvider.java
        HTTPSServerConfigTest.java
        HTTPSServerTest.java
        HTTPSServerTesting.java
        HTTPServerConfigTest.java
        HTTPServerLoadTest.java
        HTTPServerMultiLangLoadTest.java
        HTTPServerMultiLangLoadTest2.java
        HTTPServerOverheadTest.java
        HTTPServerTest.java
        HTTPTools.java
        RequestLimiterTest.java
        TextCheckerTest.java
- languagetool-standalone
  - src
    - main
      - java
        org
        languagetool
        dev
        HomophoneOccurrenceDumper.java
        NGramStats.java
        RuleCreator.java
        gui
        FontChooser.java
        GuiLangConfigPanel.java
        HighlightPainter.java
        LanguageAdapter.java
        LanguageComboBox.java
        LanguageComboBoxModel.java
        LanguageComboBoxRenderer.java
        LanguageComparator.java
        LanguageManagerDialog.java
        LanguageToolEvent.java
        LanguageToolListener.java
        LanguageToolSupport.java
        LocalStorage.java
        LocaleBean.java
        Main.java
        MainWindowStateBean.java
        ResizeComponentListener.java
        ResultAreaHelper.java
        RetainLineBreakTransferHandler.java
        RuleLink.java
        UndoRedoSupport.java
    - test
      - java
        org
        languagetool
        JLanguageToolTest.java
        LanguageTest.java
        LanguagesTest.java
        ResultCacheTest.java
        TranslationTest.java
        dev
        MultiThreadingTest1.java
        MultiThreadingTest2.java
        gui
        ConfigurationTest.java
        RuleLinkTest.java
        language
        LanguageIdentifierTest.java
        rules
        ConfusionSetLoaderTest.java
        RuleTest.java
        WordListValidatorTest.java
        bitext
        FalseFriendsAsBitextLoaderTest.java
        StandaloneBitextPatternRuleTest.java
        patterns
        FalseFriendRuleTest.java
        PerformanceTest.java
        PerformanceTest2.java
        RuleNumberScalabilityTest.java
        StartupTimePerformanceTest.java
        tagging
        ManualTaggerTest.java
        disambiguation
        MultiWordChunkerTest.java
        rules
        StandaloneDisambiguationRuleTest.java
        tokenizers
        SRXSentenceTokenizerTest.java
        tools
        ToolsTest.java
- languagetool-tools
  - src
    - main
      - java
        org
        languagetool
        tools
        BuilderOptions.java
        DictionaryBuilder.java
        DictionaryExporter.java
        POSDictionaryBuilder.java
        SpellDictionaryBuilder.java
        SynthDictionaryBuilder.java
    - test
      - java
        org
        languagetool
        tools
        DictionaryBuilderTestHelper.java
        POSDictionaryBuilderTest.java
        SynthDictionaryBuilderTest.java
- languagetool-wikipedia
  - src
    - main
      - java
        org
        languagetool
        dev
        RareWordsFinder.java
        dumpcheck
        AfterTheDeadlineChecker.java
        ArticleLimitReachedException.java
        CompactStdoutHandler.java
        DatabaseHandler.java
        DocumentLimitReachedException.java
        ErrorLimitReachedException.java
        MixingSentenceSource.java
        PlainTextSentenceSource.java
        ResultHandler.java
        Sentence.java
        SentenceSource.java
        SentenceSourceChecker.java
        SentenceSourceIndexer.java
        StdoutHandler.java
        TatoebaSentenceSource.java
        WikipediaSentenceExtractor.java
        WikipediaSentenceSource.java
        index
        AnyCharTokenizer.java
        DoNotUseAnalyzer.java
        Indexer.java
        LanguageToolAnalyzer.java
        LanguageToolFilter.java
        MatchingSentence.java
        PatternRuleNotFoundException.java
        PatternRuleQueryBuilder.java
        SearchTimeoutException.java
        Searcher.java
        SearcherResult.java
        UnsupportedPatternRuleException.java
        wikipedia
        AppliedRuleMatch.java
        ErrorMarker.java
        IpaExtractor.java
        LocationHelper.java
        Main.java
        MarkupAwareWikipediaResult.java
        MediaWikiContent.java
        PageNotFoundException.java
        PlainTextMapping.java
        RuleMatchApplication.java
        SuggestionReplacer.java
        SwebleWikipediaTextFilter.java
        TextConverter.java
        TextMapFilter.java
        WikipediaQuickCheck.java
        WikipediaQuickCheckResult.java
        atom
        AtomFeedChecker.java
        AtomFeedCheckerCmd.java
        AtomFeedItem.java
        AtomFeedParser.java
        ChangeAnalysis.java
        CheckResult.java
        DatabaseConfig.java
        MatchDatabase.java
        StoredWikipediaRuleMatch.java
        WikipediaRuleMatch.java
    - test
      - java
        org
        languagetool
        dev
        dumpcheck
        TatoebaSentenceSourceTest.java
        WikipediaSentenceSourceTest.java
        index
        IndexerSearcherTest.java
        LanguageToolFilterTest.java
        PatternRuleQueryBuilderTest.java
        wikipedia
        LocationHelperTest.java
        SuggestionReplacerTest.java
        WikipediaQuickCheckTest.java
        WikipediaTextFilterTest.java
        atom
        AtomFeedCheckerTest.java
        AtomFeedItemTest.java
        AtomFeedParserTest.java
        ChangeAnalysisTest.java
        FakeRule.java
        MatchDatabaseTest.java

/* LanguageTool, a natural language style checker 
 * Copyright (C) 2015 Daniel Naber (http://www.danielnaber.de)
 * 
 * This library is free software; you can redistribute it and/or
 * modify it under the terms of the GNU Lesser General Public
 * License as published by the Free Software Foundation; either
 * version 2.1 of the License, or (at your option) any later version.
 *
 * This library is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 * Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU Lesser General Public
 * License along with this library; if not, write to the Free Software
 * Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301
 * USA
 */
package org.languagetool.dev.bigdata;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.*;
import org.apache.lucene.index.*;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.jetbrains.annotations.NotNull;
import org.languagetool.Language;
import org.languagetool.Languages;
import org.languagetool.dev.eval.SimpleCorpusEvaluator;
import org.languagetool.languagemodel.LanguageModel;
import org.languagetool.rules.en.GoogleStyleWordTokenizer;
import org.languagetool.tokenizers.SentenceTokenizer;
import org.languagetool.tokenizers.Tokenizer;
import org.tukaani.xz.XZInputStream;

import java.io.*;
import java.util.HashMap;
import java.util.List;
import java.util.Locale;
import java.util.Map;

/**
 * Indexing the CommonCrawl-based data from http://data.statmt.org/ngrams/
 * to ngrams.
 * 
 * @since 3.2
 */
class CommonCrawlToNgram implements AutoCloseable {

  private static final double THRESHOLD = 0.00000000001;
  private static final int MAX_TOKEN_LENGTH = 20;
  
  private final File input;
  private final File indexTopDir;
  private final File evalFile;
  private final SentenceTokenizer sentenceTokenizer;
  private final Tokenizer wordTokenizer;
  private final Map<String, Long> unigramToCount = new HashMap<>();
  private final Map<String, Long> bigramToCount = new HashMap<>();
  private final Map<String, Long> trigramToCount = new HashMap<>();
  private final Map<Integer, LuceneLiveIndex> indexes = new HashMap<>();
  
  private int cacheLimit = 1_000_000;  // max. number of trigrams in HashMap before we flush to Lucene
  private long charCount = 0;
  private long lineCount = 0;

  CommonCrawlToNgram(Language language, File input, File indexTopDir, File evalFile) throws IOException {
    this.input = input;
    this.indexTopDir = indexTopDir;
    this.evalFile = evalFile;
    this.sentenceTokenizer = language.getSentenceTokenizer();
    this.wordTokenizer = new GoogleStyleWordTokenizer();
    indexes.put(1, new LuceneLiveIndex(new File(indexTopDir, "1grams")));
    indexes.put(2, new LuceneLiveIndex(new File(indexTopDir, "2grams")));
    indexes.put(3, new LuceneLiveIndex(new File(indexTopDir, "3grams")));
  }
  
  @Override
  public void close() throws IOException {
    for (LuceneLiveIndex index : indexes.values()) {
      index.close();
    }
  }

  void setCacheLimit(int cacheLimit) {
    this.cacheLimit = cacheLimit;
  }
  
  void indexInputFile() throws IOException {
    writeAndEvaluate();  // run now so we have a baseline
    FileInputStream fin = new FileInputStream(input);
    BufferedInputStream in = new BufferedInputStream(fin);
    try (XZInputStream xzIn = new XZInputStream(in)) {
      final byte[] buffer = new byte[8192];
      int n;
      while ((n = xzIn.read(buffer)) != -1) {
        String buf = new String(buffer, 0, n);  // TODO: not always correct, we need to wait for line end first?
        String[] lines = buf.split("\n");
        indexLine(lines);
      }
    }
    writeAndEvaluate();
  }

  private void indexLine(String[] lines) throws IOException {
    for (String line : lines) {
      if (lineCount++ % 50_000 == 0) {
        float mb = (float) charCount / 1000 / 1000;
        System.out.printf(Locale.ENGLISH, "Indexing line %d (%.2fMB)\n", lineCount, mb);
      }
      charCount += line.length();
      List<String> sentences = sentenceTokenizer.tokenize(line);
      for (String sentence : sentences) {
        indexSentence(sentence);
      }
    }
  }

  private void indexSentence(String sentence) throws IOException {
    List<String> tokens = wordTokenizer.tokenize(sentence);
    tokens.add(0, LanguageModel.GOOGLE_SENTENCE_START);
    tokens.add(LanguageModel.GOOGLE_SENTENCE_END);
    String prevPrev = null;
    String prev = null;
    for (String token : tokens) {
      if (token.trim().isEmpty()) {
        continue;
      }
      if (token.length() <= MAX_TOKEN_LENGTH) {
        unigramToCount.compute(token, (k, v) -> v == null ? 1 : v + 1);
      }
      if (prev != null) {
        if (token.length() <= MAX_TOKEN_LENGTH && prev.length() <= MAX_TOKEN_LENGTH) {
          String ngram = prev + " " + token;
          bigramToCount.compute(ngram, (k, v) -> v == null ? 1 : v + 1);
        }
      }
      if (prevPrev != null && prev != null) {
        if (token.length() <= MAX_TOKEN_LENGTH && prev.length() <= MAX_TOKEN_LENGTH && prevPrev.length() <= MAX_TOKEN_LENGTH) {
          String ngram = prevPrev + " " + prev + " " + token;
          trigramToCount.compute(ngram, (k, v) -> v == null ? 1 : v + 1);
        }
        if (trigramToCount.size() > cacheLimit) {
          writeAndEvaluate();
        }
      }
      prevPrev = prev;
      prev = token;
    }
  }

  private void writeAndEvaluate() throws IOException {
    writeToLucene(1, unigramToCount);
    writeToLucene(2, bigramToCount);
    writeToLucene(3, trigramToCount);
    if (evalFile != null) {
      System.out.println("Running evaluation...");
      long startTime = System.currentTimeMillis();
      SimpleCorpusEvaluator evaluator = new SimpleCorpusEvaluator(indexTopDir);
      evaluator.run(evalFile, THRESHOLD);
      System.out.println("Eval time: " + (System.currentTimeMillis()-startTime) + "ms");
    } else {
      System.out.println("Skipping evaluation, no evaluation file specified");
    }
  }
  
  private void writeToLucene(int ngramSize, Map<String, Long> ngramToCount) throws IOException {
    long startTime = System.currentTimeMillis();
    System.out.println("Writing " + ngramToCount.size() + " cached ngrams to Lucene index (ngramSize=" + ngramSize + ")...");
    LuceneLiveIndex index = indexes.get(ngramSize);
    // not sure why this doesn't work, should be faster:
    /*DirectoryReader newReader = DirectoryReader.openIfChanged(reader);
    if (newReader != null) {
      reader = newReader;
    }*/
    index.reader = DirectoryReader.open(index.indexWriter, true);
    index.searcher = new IndexSearcher(index.reader);
    for (Map.Entry<String, Long> entry : ngramToCount.entrySet()) {
      Term ngram = new Term("ngram", entry.getKey());
      TopDocs topDocs = index.searcher.search(new TermQuery(ngram), 2);
      //System.out.println(ngram + " ==> " + topDocs.totalHits);
      if (topDocs.totalHits == 0) {
        Document doc = getDoc(entry.getKey(), entry.getValue());
        index.indexWriter.addDocument(doc);
      } else if (topDocs.totalHits == 1) {
        int docNumber = topDocs.scoreDocs[0].doc;
        Document document = index.reader.document(docNumber);
        long oldCount = Long.parseLong(document.getField("count").stringValue());
        //System.out.println(ngram + " -> " + oldCount + "+" + entry.getValue());
        index.indexWriter.deleteDocuments(ngram);
        index.indexWriter.addDocument(getDoc(entry.getKey(), oldCount + entry.getValue()));
        // would probably be faster, but we currently rely on the count being a common field:
        //indexWriter.updateNumericDocValue(ngram, "count", oldCount + entry.getValue());
      } else if (topDocs.totalHits > 1) {
        throw new RuntimeException("Got more than one hit for: " + ngram);
      }
      //System.out.println("   " + entry.getKey() + " -> " + entry.getValue());
    }
    if (ngramSize == 1) {
      // TODO: runtime code will crash if there are more than 1000 of these docs, so update instead of delete
      long total = ngramToCount.values().stream().mapToLong(Number::longValue).sum();
      System.out.println("Adding totalTokenCount doc: " + total);
      addTotalTokenCountDoc(total, index.indexWriter);
    }
    System.out.println("Commit...");
    index.indexWriter.commit();
    System.out.println("Commit done, indexing took " + (System.currentTimeMillis()-startTime) + "ms");
    ngramToCount.clear();
  }

  @NotNull
  private Document getDoc(String ngram, long count) {
    Document doc = new Document();
    doc.add(new Field("ngram", ngram, StringField.TYPE_NOT_STORED));
    doc.add(getCountField(count));
    return doc;
  }

  @NotNull
  private LongField getCountField(long count) {
    FieldType fieldType = new FieldType();
    fieldType.setStored(true);
    fieldType.setOmitNorms(true);
    fieldType.setNumericType(FieldType.NumericType.LONG);
    fieldType.setDocValuesType(DocValuesType.NUMERIC);
    return new LongField("count", count, fieldType);
  }

  private void addTotalTokenCountDoc(long totalTokenCount, IndexWriter writer) throws IOException {
    FieldType fieldType = new FieldType();
    fieldType.setIndexOptions(IndexOptions.DOCS);
    fieldType.setStored(true);
    fieldType.setOmitNorms(true);
    Field countField = new Field("totalTokenCount", String.valueOf(totalTokenCount), fieldType);
    Document doc = new Document();
    doc.add(countField);
    writer.addDocument(doc);
  }

  public static void main(String[] args) throws IOException {
    if (args.length != 4) {
      System.out.println("Usage: " + CommonCrawlToNgram.class + " <langCode> <input.xz> <ngramIndexDir> <simpleEvalFile>");
      System.out.println(" <simpleEvalFile> a plain text file with simple error markup");
      System.exit(1);
    }
    Language language = Languages.getLanguageForShortCode(args[0]);
    File input = new File(args[1]);
    File outputDir = new File(args[2]);
    File evalFile = new File(args[3]);
    try (CommonCrawlToNgram prg = new CommonCrawlToNgram(language, input, outputDir, evalFile)) {
      prg.indexInputFile();
    }
  }
  
  static class LuceneLiveIndex {

    private final Directory directory;
    private final IndexWriter indexWriter;

    private DirectoryReader reader;
    private IndexSearcher searcher;

    LuceneLiveIndex(File dir) throws IOException {
      Analyzer analyzer = new StandardAnalyzer();
      IndexWriterConfig config = new IndexWriterConfig(analyzer);
      directory = FSDirectory.open(dir.toPath());
      indexWriter = new IndexWriter(directory, config);
      reader = DirectoryReader.open(indexWriter, false);
      searcher = new IndexSearcher(reader);
    }
    
    void close() throws IOException {
      reader.close();
      indexWriter.close();
      directory.close();
    }

  }
}