CheckWikipediaDump.java example

Explorer

languagetool-mirror-master
- languagetool-client-example
  - src
    - main
      - java
        org
        languagetool
        clientexample
        Example.java
- languagetool-commandline
  - src
    - main
      - java
        org
        languagetool
        commandline
        CommandLineOptions.java
        CommandLineParser.java
        Main.java
        UnknownParameterException.java
        WrongParameterNumberException.java
    - test
      - java
        org
        languagetool
        commandline
        AbstractSecurityTestCase.java
        CommandLineParserTest.java
        MainTest.java
- languagetool-core
  - src
    - main
      - java
        org
        languagetool
        AnalyzedSentence.java
        AnalyzedToken.java
        AnalyzedTokenReadings.java
        JLanguageTool.java
        Language.java
        ResourceBundleWithFallback.java
        TextFilter.java
        bitext
        BitextReader.java
        StringPair.java
        TabBitextReader.java
        WordFastTMReader.java
        databroker
        DefaultResourceDataBroker.java
        ResourceDataBroker.java
        language
        Contributor.java
        Contributors.java
        Demo.java
        LanguageBuilder.java
        RuleFilenameException.java
        rules
        AbstractCompoundRule.java
        AbstractPunctuationCheckRule.java
        AbstractSimpleReplaceRule.java
        Category.java
        CommaWhitespaceRule.java
        DoublePunctuationRule.java
        GenericUnpairedBracketsRule.java
        IncorrectExample.java
        LongSentenceRule.java
        Rule.java
        RuleMatch.java
        RuleMatchFilter.java
        SameRuleGroupFilter.java
        UppercaseSentenceStartRule.java
        WhitespaceBeforePunctuationRule.java
        WhitespaceRule.java
        WordRepeatBeginningRule.java
        WordRepeatRule.java
        WrongWordInContextRule.java
        bitext
        BitextRule.java
        DifferentLengthRule.java
        IncorrectBitextExample.java
        SameTranslationRule.java
        patterns
        AbstractPatternRule.java
        Element.java
        FalseFriendRuleLoader.java
        Match.java
        PatternRule.java
        PatternRuleHandler.java
        PatternRuleLoader.java
        PatternRuleMatcher.java
        PatternRuleXmlCreator.java
        Unifier.java
        XMLRuleHandler.java
        bitext
        BitextPatternRule.java
        BitextPatternRuleLoader.java
        BitextXMLRuleHandler.java
        FalseFriendsAsBitextLoader.java
        spelling
        SpellingCheckRule.java
        SuggestionExtractor.java
        hunspell
        CompoundAwareHunspellRule.java
        Hunspell.java
        HunspellLibrary.java
        HunspellNoSuggestionRule.java
        HunspellRule.java
        morfologik
        MorfologikSpeller.java
        MorfologikSpellerRule.java
        synthesis
        BaseSynthesizer.java
        ManualSynthesizer.java
        Synthesizer.java
        SynthesizerTools.java
        tagging
        BaseTagger.java
        ManualTagger.java
        Tagger.java
        disambiguation
        Disambiguator.java
        MultiWordChunker.java
        rules
        AbstractRuleDisambiguator.java
        DisambXMLRuleHandler.java
        DisambiguatedExample.java
        DisambiguationPatternRule.java
        DisambiguationRuleLoader.java
        xx
        DemoDisambiguator.java
        TrimDisambiguator.java
        xx
        DemoTagger.java
        tokenizers
        SRXSentenceTokenizer.java
        SentenceTokenizer.java
        Tokenizer.java
        WordTokenizer.java
        tools
        ContextTools.java
        LanguageIdentifierTools.java
        MultiKeyProperties.java
        StringTools.java
        SymbolLocator.java
        Tools.java
        UnsyncStack.java
    - test
      - java
        org
        languagetool
        AnalyzedTokenReadingsTest.java
        AnalyzedTokenTest.java
        TestTools.java
        ValidateFalseFriendsXmlTest.java
        VersionNumberTest.java
        XMLValidator.java
        bitext
        TabBitextReaderTest.java
        WordFastTMReaderTest.java
        language
        LanguageBuilderTest.java
        rules
        CommaWhitespaceRuleTest.java
        CompoundRuleTestAbs.java
        DoublePunctuationRuleTest.java
        SameRuleGroupFilterTest.java
        WhitespaceRuleTest.java
        bitext
        BitextPatternRuleTest.java
        DifferentLengthRuleTest.java
        FakeLanguage.java
        SameTranslationRuleTest.java
        patterns
        ElementTest.java
        MatchTest.java
        PatternRuleLoaderTest.java
        PatternRuleTest.java
        PatternRuleXmlCreatorTest.java
        PatternTestTools.java
        UnifierTest.java
        spelling
        SuggestionExtractorTest.java
        synthesis
        ManualSynthesizerAdapter.java
        ManualSynthesizerTest.java
        tagging
        disambiguation
        rules
        DisambiguationRuleTest.java
        tokenizers
        ManualTaggerAdapter.java
        ManualTaggerAdapterTest.java
        SentenceTokenizerTest.java
        WordTokenizerTest.java
        tools
        ContextToolsTest.java
        StringToolsTest.java
        ToolsTest.java
        UnsyncStackTest.java
- languagetool-gui-commons
  - src
    - main
      - java
        org
        languagetool
        gui
        AboutDialog.java
        Configuration.java
        ConfigurationDialog.java
        Tools.java
- languagetool-language-modules
  - ast
    - src
      - main
        java
        org
        languagetool
        language
        Asturian.java
        tagging
        ast
        AsturianTagger.java
      - test
        java
        org
        languagetool
        rules
        ast
        AsturianPatternRuleTest.java
  - be
    - src
      - main
        java
        org
        languagetool
        language
        Belarusian.java
        rules
        be
        MorfologikBelarusianSpellerRule.java
        tagging
        be
        BelarusianTagger.java
      - test
        java
        org
        languagetool
        rules
        be
        BelarusianPatternRuleTest.java
  - br
    - src
      - main
        java
        org
        languagetool
        language
        Breton.java
        rules
        br
        MorfologikBretonSpellerRule.java
        TopoReplaceRule.java
        tagging
        br
        BretonTagger.java
        disambiguation
        rules
        br
        BretonRuleDisambiguator.java
        tokenizers
        br
        BretonWordTokenizer.java
      - test
        java
        org
        languagetool
        rules
        br
        BretonPatternRuleTest.java
        MorfologikBretonSpellerRuleTest.java
        TopoReplaceRuleTest.java
  - ca
    - src
      - main
        java
        org
        languagetool
        language
        Catalan.java
        rules
        ca
        AccentuationCheckRule.java
        CatalanRule.java
        CatalanUnpairedBracketsRule.java
        CatalanUnpairedExclamationMarksRule.java
        CatalanUnpairedQuestionMarksRule.java
        CatalanWrongWordInContextRule.java
        ComplexAdjectiveConcordanceRule.java
        MorfologikCatalanSpellerRule.java
        ReflexiveVerbsRule.java
        synthesis
        ca
        CatalanSynthesizer.java
        tagging
        ca
        CatalanTagger.java
        disambiguation
        ca
        CatalanHybridDisambiguator.java
        rules
        ca
        CatalanRuleDisambiguator.java
        tokenizers
        ca
        CatalanWordTokenizer.java
      - test
        java
        org
        languagetool
        rules
        ca
        AccentuationCheckRuleTest.java
        CatalanPatternRuleTest.java
        CatalanUnpairedBracketsRuleTest.java
        CatalanWrongWordInContextRuleTest.java
        ComplexAdjectiveConcordanceRuleTest.java
        MorfologikCatalanSpellerRuleTest.java
        ReflexiveVerbsRuleTest.java
        synthesis
        ca
        CatalanSynthesizerTest.java
        tagging
        ca
        CatalanTaggerTest.java
        tokenizers
        ca
        CatalanSentenceTokenizerTest.java
        CatalanWordTokenizerTest.java
  - da
    - src
      - main
        java
        org
        languagetool
        language
        Danish.java
        tagging
        da
        DanishTagger.java
        disambiguation
        rules
        da
        DanishRuleDisambiguator.java
        tokenizers
        da
        DanishSentenceTokenizer.java
      - test
        java
        org
        languagetool
        rules
        da
        DanishPatternRuleTest.java
        tokenizers
        da
        DanishSRXSentenceTokenizerTest.java
  - de
    - src
      - main
        java
        org
        languagetool
        language
        AustrianGerman.java
        German.java
        GermanyGerman.java
        SwissGerman.java
        rules
        de
        AgreementRule.java
        CaseRule.java
        CompoundRule.java
        DashRule.java
        GermanDoublePunctuationRule.java
        GermanRule.java
        GermanSpellerRule.java
        GermanWordRepeatBeginningRule.java
        GermanWordRepeatRule.java
        GermanWrongWordInContextRule.java
        MorfologikGermanyGermanSpellerRule.java
        VerbAgreementRule.java
        WiederVsWiderRule.java
        WordCoherencyRule.java
        tagging
        de
        AnalyzedGermanToken.java
        AnalyzedGermanTokenReadings.java
        GermanTagger.java
        GermanToken.java
        tokenizers
        de
        GermanCompoundTokenizer.java
      - test
        java
        org
        languagetool
        JLanguageToolTest.java
        rules
        de
        AgreementRuleTest.java
        CaseRuleTest.java
        CompoundRuleTest.java
        DashRuleTest.java
        GenericUnpairedBracketsRuleTest.java
        GermanPatternRuleTest.java
        GermanSpellerRuleTest.java
        GermanWordRepeatBeginningRuleTest.java
        GermanWrongWordInContextRuleTest.java
        UppercaseSentenceStartRuleTest.java
        VerbAgreementRuleTest.java
        WiederVsWiderRuleTest.java
        WordCoherencyRuleTest.java
        WordRepeatRuleTest.java
        spelling
        hunspell
        HunspellRuleTest.java
        SpellingCheckRuleTest.java
        tagging
        de
        GermanTaggerTest.java
        tokenizers
        de
        GermanSRXSentenceTokenizerTest.java
  - de-DE-x-simple-language
    - src
      - main
        java
        org
        languagetool
        language
        SimpleGerman.java
      - test
        java
        org
        languagetool
        rules
        de
        SimpleGermanPatternRuleTest.java
  - el
    - src
      - main
        java
        org
        languagetool
        language
        Greek.java
        rules
        el
        GreekUnpairedBracketsRule.java
        MorfologikGreekSpellerRule.java
        synthesis
        el
        GreekSynthesizer.java
        tagging
        disambiguation
        rules
        el
        GreekRuleDisambiguator.java
        el
        GreekTagger.java
        tokenizers
        el
        GreekWordTokenizer.java
        GreekWordTokenizerImpl.java
      - test
        java
        org
        languagetool
        rules
        el
        GreekPatternRuleTest.java
  - en
    - src
      - main
        java
        org
        languagetool
        language
        AmericanEnglish.java
        AustralianEnglish.java
        BritishEnglish.java
        CanadianEnglish.java
        English.java
        NewZealandEnglish.java
        SouthAfricanEnglish.java
        rules
        en
        AvsAnRule.java
        BritishReplaceRule.java
        CompoundRule.java
        EnglishRule.java
        EnglishUnpairedBracketsRule.java
        EnglishWordRepeatBeginningRule.java
        EnglishWordRepeatRule.java
        MorfologikAmericanSpellerRule.java
        MorfologikAustralianSpellerRule.java
        MorfologikBritishSpellerRule.java
        MorfologikCanadianSpellerRule.java
        MorfologikNewZealandSpellerRule.java
        MorfologikSouthAfricanSpellerRule.java
        synthesis
        en
        EnglishSynthesizer.java
        tagging
        disambiguation
        rules
        en
        EnglishRuleDisambiguator.java
        en
        EnglishTagger.java
      - test
        java
        org
        languagetool
        JLanguageToolTest.java
        rules
        en
        AvsAnRuleTest.java
        BritishReplaceRuleTest.java
        CompoundRuleTest.java
        EnglishPatternRuleTest.java
        EnglishUnpairedBracketsRuleTest.java
        MorfologikAmericanSpellerRuleTest.java
        MorfologikAustralianSpellerRuleTest.java
        MorfologikBritishSpellerRuleTest.java
        MorfologikCanadianSpellerRuleTest.java
        MorfologikNewZealandSpellerRuleTest.java
        MorfologikSouthAfricanSpellerRuleTest.java
        SpellingCheckRuleTest.java
        UppercaseSentenceStartRuleTest.java
        WordRepeatRuleTest.java
        synthesis
        en
        EnglishSynthesizerTest.java
        tagging
        disambiguation
        rules
        en
        EnglishRuleDisambiguatorTest.java
        en
        EnglishTaggerTest.java
        tokenizers
        SRXSentenceTokenizerTest.java
        tools
        ToolsTest.java
  - eo
    - src
      - main
        java
        org
        languagetool
        language
        Esperanto.java
        tagging
        disambiguation
        rules
        eo
        EsperantoRuleDisambiguator.java
        eo
        EsperantoTagger.java
        tokenizers
        eo
        EsperantoWordTokenizer.java
      - test
        java
        org
        languagetool
        rules
        eo
        EsperantoPatternRuleTest.java
        tagging
        eo
        EsperantoTaggerTest.java
        tokenizers
        eo
        EsperantoWordTokenizerTest.java
  - es
    - src
      - main
        java
        org
        languagetool
        language
        Spanish.java
        rules
        es
        ElwithFemRule.java
        SpanishRule.java
        synthesis
        es
        SpanishSynthesizer.java
        tagging
        disambiguation
        rules
        es
        SpanishRuleDisambiguator.java
        es
        SpanishTagger.java
        tokenizers
        es
        SpanishWordTokenizer.java
      - test
        java
        org
        languagetool
        rules
        es
        ElwithFemRuleTest.java
        GenericUnpairedBracketsRuleTest.java
        SpanishPatternRuleTest.java
        synthesis
        es
        SpanishSynthesizerTest.java
        tagging
        es
        SpanishTaggerTest.java
  - fr
    - src
      - main
        java
        org
        languagetool
        language
        French.java
        rules
        fr
        FrenchRule.java
        QuestionWhitespaceRule.java
        tagging
        disambiguation
        fr
        FrenchHybridDisambiguator.java
        rules
        fr
        FrenchRuleDisambiguator.java
        fr
        FrenchTagger.java
      - test
        java
        org
        languagetool
        rules
        fr
        FrenchPatternRuleTest.java
        GenericUnpairedBracketsRuleTest.java
        QuestionWhitespaceRuleTest.java
        spelling
        hunspell
        HunspellRuleTest.java
        tagging
        disambiguation
        rules
        fr
        FrenchRuleDisambiguatorTest.java
        fr
        FrenchTaggerTest.java
  - gl
    - src
      - main
        java
        org
        languagetool
        language
        Galician.java
        rules
        gl
        CastWordsRule.java
        SimpleReplaceRule.java
        synthesis
        gl
        GalicianSynthesizer.java
        tagging
        disambiguation
        rules
        gl
        GalicianRuleDisambiguator.java
        gl
        GalicianTagger.java
        tokenizers
        gl
        GalicianWordTokenizer.java
      - test
        java
        org
        languagetool
        rules
        gl
        GalicianPatternRuleTest.java
        tagging
        gl
        GalicianTaggerTest.java
  - is
    - src
      - main
        java
        org
        languagetool
        language
        Icelandic.java
      - test
        java
        org
        languagetool
        rules
        is
        IcelandicPatternRuleTest.java
  - it
    - src
      - main
        java
        org
        languagetool
        language
        Italian.java
        rules
        it
        MorfologikItalianSpellerRule.java
        tagging
        it
        ItalianTagger.java
      - test
        java
        org
        languagetool
        rules
        it
        ItalianPatternRuleTest.java
        tagging
        it
        ItalianTaggerTest.java
  - ja
    - src
      - main
        java
        org
        languagetool
        language
        Japanese.java
        tagging
        ja
        JapaneseTagger.java
        tokenizers
        ja
        JapaneseWordTokenizer.java
      - test
        java
        org
        languagetool
        JLanguageToolTest.java
        rules
        ja
        JapanesePatternRuleTest.java
        tagging
        ja
        JapaneseTaggerTest.java
        tokenizers
        ja
        JapaneseSRXSentenceTokenizerTest.java
        JapaneseWordTokenizerTest.java
  - km
    - src
      - main
        java
        org
        languagetool
        language
        Khmer.java
        rules
        km
        KhmerRule.java
        KhmerSimpleReplaceRule.java
        KhmerUnpairedBracketsRule.java
        KhmerWordCoherencyRule.java
        KhmerWordRepeatRule.java
        tagging
        disambiguation
        rules
        km
        KhmerRuleDisambiguator.java
        km
        KhmerTagger.java
        tokenizers
        km
        KhmerWordTokenizer.java
      - test
        java
        org
        languagetool
        rules
        km
        KhmerPatternRuleTest.java
        KhmerWordRepeatRuleTest.java
  - lt
    - src
      - main
        java
        org
        languagetool
        language
        Lithuanian.java
        rules
        lt
        MorfologikLithuanianSpellerRule.java
      - test
        java
        org
        languagetool
        rules
        lt
        LithuanianPatternRuleTest.java
  - ml
    - src
      - main
        java
        org
        languagetool
        language
        Malayalam.java
        rules
        ml
        MorfologikMalayalamSpellerRule.java
        tagging
        ml
        MalayalamTagger.java
        tokenizers
        ml
        MalayalamWordTokenizer.java
      - test
        java
        org
        languagetool
        rules
        ml
        MalayalamPatternRuleTest.java
        MorfologikMalayalamSpellerRuleTest.java
  - nl
    - src
      - main
        java
        org
        languagetool
        language
        Dutch.java
        rules
        nl
        CompoundRule.java
        DutchWrongWordInContextRule.java
        MorfologikDutchSpellerRule.java
        synthesis
        nl
        DutchSynthesizer.java
        tagging
        disambiguation
        rules
        nl
        DutchRuleDisambiguator.java
        nl
        DutchTagger.java
        tokenizers
        nl
        DutchWordTokenizer.java
      - test
        java
        org
        languagetool
        JLanguageToolTest.java
        rules
        nl
        DutchPatternRuleTest.java
        DutchWrongWordInContextRuleTest.java
        GenericUnpairedBracketsRuleTest.java
        UppercaseSentenceStartRuleTest.java
        synthesis
        nl
        DutchSynthesizerTest.java
        tagging
        nl
        DutchTaggerTest.java
        tokenizers
        nl
        DutchSRXSentenceTokenizerTest.java
        DutchWordTokenizerTest.java
  - pl
    - src
      - main
        java
        org
        languagetool
        language
        Polish.java
        rules
        pl
        CompoundRule.java
        MorfologikPolishSpellerRule.java
        PolishRule.java
        PolishUnpairedBracketsRule.java
        PolishWordRepeatRule.java
        SimpleReplaceRule.java
        synthesis
        pl
        PolishSynthesizer.java
        tagging
        disambiguation
        pl
        PolishHybridDisambiguator.java
        rules
        pl
        PolishRuleDisambiguator.java
        pl
        PolishTagger.java
      - test
        java
        org
        languagetool
        JLanguageToolTest.java
        rules
        pl
        CompoundRuleTest.java
        MatchTest.java
        MorfologikPolishSpellerRuleTest.java
        PolishPatternRuleTest.java
        PolishUnpairedBracketsRuleTest.java
        PolishWordRepeatRuleTest.java
        SimpleReplaceRuleTest.java
        UppercaseSentenceStartRuleTest.java
        WhitespaceRuleTest.java
        WordRepeatRuleTest.java
        synthesis
        pl
        PolishSynthesizerTest.java
        tagging
        disambiguation
        PolishDisambiguatorTest.java
        pl
        PolishTaggerTest.java
        tokenizers
        pl
        PolishSentenceTokenizerTest.java
        tools
        ToolsTest.java
  - pt
    - src
      - main
        java
        org
        languagetool
        language
        Portuguese.java
        PortugueseBrazil.java
        PortuguesePortugal.java
        rules
        pt
        PortugueseCompoundRule.java
        PortugueseRule.java
      - test
        java
        org
        languagetool
        rules
        pt
        PortuguesePatternRuleTest.java
  - ro
    - src
      - main
        java
        org
        languagetool
        language
        Romanian.java
        rules
        ro
        CompoundRule.java
        MorfologikRomanianSpellerRule.java
        RomanianWordRepeatBeginningRule.java
        SimpleReplaceRule.java
        synthesis
        ro
        RomanianSynthesizer.java
        tagging
        disambiguation
        rules
        ro
        RomanianRuleDisambiguator.java
        ro
        RomanianTagger.java
        tokenizers
        ro
        RomanianWordTokenizer.java
      - test
        java
        org
        languagetool
        rules
        ro
        CompoundRuleTest.java
        GenericUnpairedBracketsRuleTest.java
        RomanianPatternRuleTest.java
        SimpleReplaceRuleTest.java
        synthesis
        ro
        RomanianSynthesizerTest.java
        tagging
        disambiguation
        rules
        ro
        RomanianRuleDisambiguatorTest.java
        ro
        RomanianTaggerDiacriticsTest.java
        RomanianTaggerTest.java
        RomanianTaggerTestAbs.java
        tokenizers
        ro
        RomanianSentenceTokenizerTest.java
        RomanianWordTokenizerTest.java
  - ru
    - src
      - main
        java
        org
        languagetool
        language
        Russian.java
        rules
        ru
        MorfologikRussianSpellerRule.java
        RussianCompoundRule.java
        RussianRule.java
        RussianSimpleReplaceRule.java
        RussianUnpairedBracketsRule.java
        RussianWordRepeatRule.java
        synthesis
        ru
        RussianSynthesizer.java
        tagging
        disambiguation
        ru
        RussianHybridDisambiguator.java
        rules
        ru
        RussianRuleDisambiguator.java
        ru
        RussianTagger.java
      - test
        java
        org
        languagetool
        rules
        ru
        RussianCompoundRuleTest.java
        RussianPatternRuleTest.java
        RussianSimpleReplaceRuleTest.java
        RussianUnpairedBracketsRuleTest.java
        synthesis
        ru
        RussianSynthesizerTest.java
        tagging
        ru
        RussianTaggerTest.java
        tokenizers
        ru
        RussianSRXSentenceTokenizerTest.java
  - sk
    - src
      - main
        java
        org
        languagetool
        language
        Slovak.java
        rules
        sk
        CompoundRule.java
        MorfologikSlovakSpellerRule.java
        SlovakRule.java
        SlovakVesRule.java
        synthesis
        sk
        SlovakSynthesizer.java
        tagging
        sk
        SlovakTagger.java
      - test
        java
        org
        languagetool
        rules
        sk
        CompoundRuleTest.java
        SlovakPatternRuleTest.java
        SlovakVesRuleTest.java
        synthesis
        sk
        SlovakSynthesizerTest.java
        tagging
        sk
        SlovakTaggerTest.java
        tokenizers
        sk
        SlovakSentenceTokenizerTest.java
  - sl
    - src
      - main
        java
        org
        languagetool
        language
        Slovenian.java
        rules
        sl
        MorfologikSlovenianSpellerRule.java
      - test
        java
        org
        languagetool
        JLanguageToolTest.java
        rules
        sl
        SlovenianPatternRuleTest.java
  - sv
    - src
      - main
        java
        org
        languagetool
        language
        Swedish.java
        rules
        sv
        CompoundRule.java
        SwedishRule.java
        tagging
        sv
        SwedishTagger.java
      - test
        java
        org
        languagetool
        rules
        sv
        CompoundRuleTest.java
        SwedishPatternRuleTest.java
        tagging
        sv
        SwedishTaggerTest.java
  - tl
    - src
      - main
        java
        org
        languagetool
        language
        Tagalog.java
        tagging
        tl
        TagalogTagger.java
      - test
        java
        org
        languagetool
        rules
        tl
        TagalogPatternRuleTest.java
  - uk
    - src
      - main
        java
        org
        languagetool
        language
        Ukrainian.java
        rules
        uk
        MorfologikUkrainianSpellerRule.java
        PunctuationCheckRule.java
        SimpleReplaceRule.java
        synthesis
        uk
        UkrainianSynthesizer.java
        tagging
        uk
        IPOSTag.java
        UkrainianMorfoTagger.java
        UkrainianMyspellTagger.java
        UkrainianTagger.java
        tokenizers
        uk
        UkrainianWordTokenizer.java
      - test
        java
        org
        languagetool
        rules
        uk
        PunctuationCheckRuleTest.java
        SimpleReplaceRuleTest.java
        UkrainianPatternRuleTest.java
        UppercaseSentenceStartRuleTest.java
  - zh
    - src
      - main
        java
        org
        languagetool
        language
        Chinese.java
        tagging
        zh
        ChineseTagger.java
        tokenizers
        zh
        ChineseSentenceTokenizer.java
        ChineseWordTokenizer.java
      - test
        java
        org
        languagetool
        rules
        zh
        ChinesePatternRuleTest.java
        tagging
        zh
        ChineseTaggerTest.java
        tokenizers
        zh
        ChineseSentenceTokenizerTest.java
        ChineseWordTokenizerTest.java
- languagetool-office-extension
  - src
    - main
      - java
        org
        languagetool
        openoffice
        ConfigThread.java
        KhmerDetector.java
        Main.java
        OOoAboutDialog.java
        SingletonFactory.java
    - test
      - java
        org
        languagetool
        openoffice
        KhmerDetectorTest.java
        MainTest.java
- languagetool-server
  - src
    - main
      - java
        org
        languagetool
        server
        HTTPSServer.java
        HTTPSServerConfig.java
        HTTPServer.java
        HTTPServerConfig.java
        LanguageToolHttpHandler.java
        PortBindingException.java
        RequestLimiter.java
        Server.java
    - test
      - java
        org
        languagetool
        server
        ExampleSentence.java
        ExampleSentenceProvider.java
        HTTPSServerConfigTest.java
        HTTPSServerTest.java
        HTTPSServerTesting.java
        HTTPServerConfigTest.java
        HTTPServerLoadTest.java
        HTTPServerTest.java
        HTTPTools.java
        RequestLimiterTest.java
- languagetool-standalone
  - src
    - main
      - dev
        org
        languagetool
        dev
        CheckBNC.java
        ExportGermanNouns.java
        POSTagLanguageModel.java
        PrintLocales.java
        RuleActivityOverview.java
        WordTokenizer.java
        conversion
        AtdRuleConverter.java
        CgRuleConverter.java
        RuleConverter.java
        RuleConverterMain.java
        RuleCoverage.java
        cg
        CgAnchor.java
        CgCompositeTag.java
        CgContextualTest.java
        CgGrammar.java
        CgRule.java
        CgSet.java
        CgStrings.java
        CgTag.java
        CgTextualParser.java
        gui
        Main.java
        MainMenuBar.java
        tools
        ltdiff
        VersionDiffGenerator.java
      - java
        org
        languagetool
        dev
        RuleOverview.java
        gui
        I18nLanguage.java
        LanguageComboBox.java
        LanguageDetectionCheckbox.java
        LanguageManagerDialog.java
        Main.java
        MainMenuBar.java
        ResultArea.java
        RetainLineBreakTransferHandler.java
        RuleLink.java
    - test
      - java
        org
        languagetool
        JLanguageToolTest.java
        LanguageTest.java
        TranslationTest.java
        gui
        ConfigurationTest.java
        RuleLinkTest.java
        rules
        GenericUnpairedBracketsRuleTest.java
        RuleTest.java
        bitext
        FalseFriendsAsBitextLoaderTest.java
        StandaloneBitextPatternRuleTest.java
        patterns
        FalseFriendRuleTest.java
        tagging
        ManualTaggerTest.java
        disambiguation
        MultiWordChunkerTest.java
        rules
        StandaloneDisambiguationRuleTest.java
        tokenizers
        SRXSentenceTokenizerTest.java
        tools
        LanguageIdentifierToolsTest.java
        ToolsTest.java
- languagetool-webstart
  - src
    - main
      - java
        org
        languagetool
        webstart
        HttpServiceActivator.java
- languagetool-wikipedia
  - src
    - main
      - java
        org
        languagetool
        dev
        index
        AnyCharTokenizer.java
        DoNotUseAnalyzer.java
        Indexer.java
        LanguageToolAnalyzer.java
        LanguageToolFilter.java
        MatchingSentence.java
        PatternRuleNotFoundException.java
        PatternRuleQueryBuilder.java
        SearchTimeoutException.java
        Searcher.java
        SearcherResult.java
        UnsupportedPatternRuleException.java
        wikipedia
        ArticleLimitReachedException.java
        BaseWikipediaDumpHandler.java
        CheckWikipediaDump.java
        DatabaseDumpHandler.java
        ErrorLimitReachedException.java
        Main.java
        OutputDumpHandler.java
        RomanianDiacriticsModifier.java
        SwebleWikipediaTextFilter.java
        TextConverter.java
        TextFilterTools.java
        WikipediaIndexHandler.java
        WikipediaQuickCheck.java
        WikipediaQuickCheckResult.java
    - test
      - java
        org
        languagetool
        dev
        index
        AnyCharTokenizerTest.java
        IndexerSearcherTest.java
        LanguageToolFilterTest.java
        PatternRuleQueryBuilderTest.java
        wikipedia
        WikipediaQuickCheckTest.java
        WikipediaTextFilterTest.java

/* LanguageTool, a natural language style checker 
 * Copyright (C) 2005 Daniel Naber (http://www.danielnaber.de)
 * 
 * This library is free software; you can redistribute it and/or
 * modify it under the terms of the GNU Lesser General Public
 * License as published by the Free Software Foundation; either
 * version 2.1 of the License, or (at your option) any later version.
 *
 * This library is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 * Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU Lesser General Public
 * License along with this library; if not, write to the Free Software
 * Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301
 * USA
 */
package org.languagetool.dev.wikipedia;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.*;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;

import org.languagetool.JLanguageTool;
import org.languagetool.Language;
import org.languagetool.rules.Rule;
import org.xml.sax.SAXException;

/**
 * Command-line tool that checks texts from Wikipedia (download "pages-articles.xml.bz2" from
 * http://download.wikimedia.org/backup-index.html, e.g.
 * http://download.wikimedia.org/dewiki/latest/dewiki-latest-pages-articles.xml.bz2)
 * and stores the result in a database.
 * 
 * @author Daniel Naber
 */
public class CheckWikipediaDump {

  private CheckWikipediaDump() {
    // no public constructor
  }
  
  public static void main(String[] args) throws IOException, SAXException, ParserConfigurationException {
    final CheckWikipediaDump prg = new CheckWikipediaDump();
    ensureCorrectUsageOrExit(args);
    File propFile = null;
    if (!"-".equals(args[0])) {
      propFile = new File(args[0]);
      if (!propFile.exists() || propFile.isDirectory()) {
        throw new IOException("File not found or isn't a file: " + propFile.getAbsolutePath());
      }
    }
    final String languageCode = args[2];
    final Set<String> disabledRuleIds = new HashSet<String>();
    if (!"-".equals(args[1])) {
      final File disabledRulesPropFile = new File(args[1]);
      if (!disabledRulesPropFile.exists() || disabledRulesPropFile.isDirectory()) {
        throw new IOException("File not found or isn't a file: " + disabledRulesPropFile.getAbsolutePath());
      }
      final Properties disabledRules = new Properties();
      disabledRules.load(new FileInputStream(disabledRulesPropFile));
      addDisabledRules("all", disabledRuleIds, disabledRules);
      addDisabledRules(languageCode, disabledRuleIds, disabledRules);
    }
    final int maxArticles = Integer.parseInt(args[5]);
    final int maxErrors = Integer.parseInt(args[6]);
    String[] ruleIds = null;
    if (!"-".equals(args[4])) {
      ruleIds = args[4].split(",");
    }
    prg.run(propFile, disabledRuleIds, languageCode, args[3], ruleIds, maxArticles, maxErrors);
  }

  private static void addDisabledRules(String languageCode, Set<String> disabledRuleIds, Properties disabledRules) {
    final String disabledRulesString = (String)disabledRules.get(languageCode);
    if (disabledRulesString != null) {
      final String[] ids = disabledRulesString.split(",");
      disabledRuleIds.addAll(Arrays.asList(ids));
    }
  }

  private static void ensureCorrectUsageOrExit(String[] args) {
    if (args.length != 7) {
      System.err.println("Usage: CheckWikipediaDump <propertyFile> <rulePropertyFile> <language> <filename> <ruleIds> <maxArticles> <maxErrors>");
      System.err.println("  propertyFile      a file to set database access properties. Use '-' to print results to stdout.");
      System.err.println("  rulePropertyFile  a file to set rules which should be disabled per language (e.g. en=RULE1,RULE2 or all=RULE3,RULE4). Use '-' to ignore.");
      System.err.println("  language          language code like 'en' or 'de'");
      System.err.println("  filename          path to unpacked Wikipedia XML dump;");
      System.err.println("                    dumps are available from http://dumps.wikimedia.org/backup-index.html");
      System.err.println("  ruleIds           comma-separated list of rule-ids to activate. Use '-' to activate the default rules.");
      System.err.println("  maxArticles       maximum number of articles to check, 0 for no limit");
      System.err.println("  maxErrors         stop when reaching this many errors, 0 for no limit");
      System.exit(1);
    }
  }

  private void run(File propFile, Set<String> disabledRules, String langCode, String xmlFileName, String[] ruleIds, int maxArticles, int maxErrors)
      throws IOException, SAXException, ParserConfigurationException {
    final File file = new File(xmlFileName);
    if (!file.exists() || !file.isFile()) {
      throw new IOException("File doesn't exist or isn't a file: " + xmlFileName);
    }
    final Language lang = Language.getLanguageForShortName(langCode);
    final JLanguageTool languageTool = new JLanguageTool(lang);
    languageTool.activateDefaultPatternRules();
    if (ruleIds != null) {
      enableSpecifiedRules(ruleIds, languageTool);
    } else {
      applyRuleDeactivation(languageTool, disabledRules);
    }
    disableSpellingRules(languageTool);
    final Date dumpDate = getDumpFileDate(file);
    System.out.println("Dump date: " + dumpDate + ", language: " + langCode);
    System.out.println("Article limit: " + (maxArticles > 0 ? maxArticles : "no limit"));
    System.out.println("Error limit: " + (maxErrors > 0 ? maxErrors : "no limit"));
    BaseWikipediaDumpHandler xmlHandler = null;
    try {
      if (propFile != null) {
        xmlHandler = new DatabaseDumpHandler(languageTool, dumpDate, langCode, propFile, lang);
      } else {
        xmlHandler = new OutputDumpHandler(languageTool, dumpDate, langCode, lang);
      }
      xmlHandler.setMaximumArticles(maxArticles);
      xmlHandler.setMaximumErrors(maxErrors);
      final SAXParserFactory factory = SAXParserFactory.newInstance();
      final SAXParser saxParser = factory.newSAXParser();
      saxParser.parse(file, xmlHandler);
    } catch (ErrorLimitReachedException e) {
      System.out.println(e);
    } catch (ArticleLimitReachedException e) {
      System.out.println(e);
    } finally {
      if (xmlHandler != null) {
        final float matchesPerDoc = (float)xmlHandler.getRuleMatchCount() / xmlHandler.getArticleCount();
        System.out.printf(lang + ": %d total matches\n", xmlHandler.getRuleMatchCount());
        System.out.printf(lang + ": ø%.2f rule matches per document\n", matchesPerDoc);
        xmlHandler.close();
      }
    }
  }

  private void enableSpecifiedRules(String[] ruleIds, JLanguageTool languageTool) {
    for (Rule rule : languageTool.getAllRules()) {
      languageTool.disableRule(rule.getId());
    }
    for (String ruleId : ruleIds) {
      languageTool.enableRule(ruleId);
    }
    for (Rule rule : languageTool.getAllRules()) {
      if (rule.isDefaultOff()) {
        languageTool.enableDefaultOffRule(rule.getId());
      }
    }
    for (String ruleId : ruleIds) {
      boolean found = false;
      for (Rule rule : languageTool.getAllRules()) {
        if (rule.getId().equals(ruleId)) {
            found = true;
            break;
        }
      }
      if (!found) {
        System.out.println("WARNING: Could not find rule '" + ruleId + "'");
      }
    }
    System.out.println("Only these rules are enabled: " + Arrays.toString(ruleIds));
  }

  private void applyRuleDeactivation(JLanguageTool languageTool, Set<String> disabledRules) throws IOException {
    // disabled via config file, usually to avoid too many false alarms:
    for (String disabledRuleId : disabledRules) {
      languageTool.disableRule(disabledRuleId);
    }
    System.out.println("These rules are disabled: " + languageTool.getDisabledRules());
  }

  private void disableSpellingRules(JLanguageTool languageTool) {
    final List<Rule> allActiveRules = languageTool.getAllActiveRules();
    for (Rule rule : allActiveRules) {
      if (rule.isSpellingRule()) {
        languageTool.disableRule(rule.getId());
      }
    }
    System.out.println("All spelling rules are disabled");
  }

  private Date getDumpFileDate(File file) throws IOException {
    final String filename = file.getName();
    final String[] parts = filename.split("-");
    if (parts.length < 3) {
      throw new IOException("Unexpected filename format: " + file.getName() + ", must be like ??wiki-????????-pages-articles.xml");
    }
    final SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMdd");
    try {
      return sdf.parse(parts[1]);
    } catch (ParseException e) {
      throw new IOException("Unexpected date format '" + parts[1] + "', must be yyyymmdd", e);
    }
  }

}