WikipediaTemplateFilteredArticleReader.java example

Explorer

dkpro-core-master
- dkpro-core-api-anomaly-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        anomaly
        AnomalyApiConstants.java
        package-info.java
- dkpro-core-api-coref-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        coref
        CorefApiConstants.java
        package-info.java
        type
        CoreferenceChain.java
        CoreferenceChain_Type.java
        CoreferenceLink.java
        CoreferenceLink_Type.java
- dkpro-core-api-datasets-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        datasets
        ActionDescription.java
        ArtifactDescription.java
        DataPackage.java
        Dataset.java
        DatasetDescription.java
        DatasetFactory.java
        DatasetLoader.java
        FileRole.java
        LicenseDescription.java
        Split.java
        internal
        ActionDescriptionImpl.java
        ArtifactDescriptionImpl.java
        DatasetDescriptionImpl.java
        LicenseDescriptionImpl.java
        LoadedDataset.java
        SplitImpl.java
        actions
        Action_ImplBase.java
        Explode.java
        ud
        UDDataset.java
        util
        AntFileFilter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        datasets
        DatasetFactoryTest.java
        DatasetLoaderTest.java
        FindEncoding.java
- dkpro-core-api-embeddings-asl
  - src
    - main
      - java
        org
        dkpro
        core
        api
        embeddings
        Vectorizer.java
        VectorizerUtils.java
        binary
        BinaryVectorizer.java
        BinaryWordVectorUtils.java
        text
        TextFormatVectorizer.java
        TextFormatVectorizerUtils.java
    - test
      - java
        org
        dkpro
        core
        api
        embeddings
        VectorizerUtilsTest.java
        binary
        BinaryWordVectorUtilsTest.java
        text
        TextFormatVectorizerTest.java
        TextFormatVectorizerUtilsTest.java
- dkpro-core-api-featurepath-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        featurepath
        Condition.java
        FeaturePathAnnotatorBase.java
        FeaturePathException.java
        FeaturePathFactory.java
        FeaturePathInfo.java
        FeaturePathUtils.java
        FilterOp.java
        package-info.java
- dkpro-core-api-frequency-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        frequency
        FrequencyCountResourceBase.java
        TestFrequencyCountResource.java
        package-info.java
        provider
        FrequencyCountProvider.java
        FrequencyCountProviderBase.java
        TestFrequencyCountProvider.java
        util
        ConditionalFrequencyDistribution.java
        FrequencyDistribution.java
        FrequencyUtils.java
        TermFreqTuple.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        frequency
        TestFrequencyCountResourceTest.java
        provider
        TestFrequencyProviderTest.java
        util
        ConditionalFrequencyDistributionTest.java
        FrequencyDistributionTest.java
- dkpro-core-api-io-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        io
        BilouDecoder.java
        FileSetCollectionReaderBase.java
        IobDecoder.java
        IobEncoder.java
        JCasFileSetCollectionReader_ImplBase.java
        JCasFileWriter_ImplBase.java
        JCasResourceCollectionReader_ImplBase.java
        ProgressMeter.java
        ResourceCollectionReaderBase.java
        ResourceLoaderLocator.java
        TextUtils.java
        package-info.java
        sequencegenerator
        PhraseSequenceGenerator.java
        StringSequenceGenerator.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        io
        BilouDecoderTest.java
        FileSetCollectionReaderBaseTest.java
        IobDecoderTest.java
        IobEncoderTest.java
        JCasFileWriter_ImplBaseTest.java
        ResourceCollectionReaderBaseTest.java
        TextUtilsTest.java
        sequencegenerator
        PhraseSequenceGeneratorTest.java
        StringSequenceGeneratorTest.java
- dkpro-core-api-lexmorph-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        lexmorph
        morph
        MorphologicalFeaturesParser.java
        internal
        AnalysisMapping.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        lexmorph
        tagset
        MappingsTest.java
- dkpro-core-api-metadata-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        metadata
        AggregateTagset.java
        SingletonTagset.java
        Tagset.java
        TagsetBase.java
        TagsetMetaData.java
        type
        DocumentMetaData.java
        DocumentMetaData_Type.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        metadata
        type
        DocumentMetaDataTest.java
        MetaDataStringFieldTest.java
- dkpro-core-api-parameter-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        parameter
        AnnotationChecker.java
        ComponentParameters.java
        Messages.java
        MimeTypes.java
      - test
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        parameter
        ComponentParametersTest.java
- dkpro-core-api-phonetics-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        phonetics
        package-info.java
        util
        SoundUtils.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        phonetics
        util
        SoundUtilsTest.java
- dkpro-core-api-resources-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        resources
        CasConfigurableProviderBase.java
        CasConfigurableStreamProviderBase.java
        CompressionMethod.java
        CompressionUtils.java
        DkproContext.java
        HasResourceMetadata.java
        HasTagsets.java
        LittleEndianDataInputStream.java
        MappingProvider.java
        MappingProviderFactory.java
        MappingUtils.java
        ModelProviderBase.java
        PlatformDetector.java
        ResourceMetadata.java
        ResourceObjectProviderBase.java
        ResourceUtils.java
        RuntimeProvider.java
        internal
        ApacheCommonsLoggingAdapter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        resources
        CompressionUtilsTest.java
        MappingProviderTest.java
        ResourceObjectProviderTest.java
        ResourceUtilsTest.java
- dkpro-core-api-segmentation-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        segmentation
        SegmenterBase.java
        package-info.java
        type
        Compound.java
        Compound_Type.java
        Token.java
        Token_Type.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        segmentation
        type
        CompoundTest.java
- dkpro-core-api-syntax-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        syntax
        type
        dependency
        DependencyFlavor.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        syntax
        tagset
        MappingsTest.java
- dkpro-core-api-transform-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        transform
        JCasTransformerChangeBased_ImplBase.java
        JCasTransformer_ImplBase.java
        alignment
        AbstractInterval.java
        AlignedString.java
        ImmutableInterval.java
        Interval.java
        WeakHashSet.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        transform
        JCasTransformerChangeBasedTest.java
        alignment
        AlignedStringTest.java
- dkpro-core-arktools-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        arktools
        ArktweetPosTagger.java
        ArktweetTokenizer.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        arktools
        ArktweetTaggerTest.java
        ArktweetTokenizationTest.java
- dkpro-core-berkeleyparser-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        berkeleyparser
        BerkeleyParser.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        berkeleyparser
        BerkeleyParserTest.java
- dkpro-core-castransformation-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        castransformation
        ApplyChangesAnnotator.java
        Backmapper.java
        internal
        AlignmentStorage.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        castransformation
        ApplyChangesBackmapperTest.java
- dkpro-core-clearnlp-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        clearnlp
        ClearNlpLemmatizer.java
        ClearNlpParser.java
        ClearNlpPosTagger.java
        ClearNlpSegmenter.java
        ClearNlpSemanticRoleLabeler.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        clearnlp
        ClearNlpLemmatizerTest.java
        ClearNlpParserTest.java
        ClearNlpPosTaggerTest.java
        ClearNlpSegmenterTest.java
        ClearNlpSemanticRoleLabelerTest.java
- dkpro-core-cogroo-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        cogroo
        CogrooChecker.java
        CogrooFeaturizer.java
        CogrooLemmatizer.java
        CogrooNamedEntityRecognizer.java
        CogrooPosTagger.java
        CogrooSegmenter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        cogroo
        CogrooCheckerTest.java
        CogrooFeaturizerTest.java
        CogrooLemmatizerTest.java
        CogrooNamedEntityRecognizerTest.java
        CogrooPosTaggerTest.java
        CogrooSegmenterTest.java
        SimpleTest.java
- dkpro-core-commonscodec-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        commonscodec
        ColognePhoneticTranscriptor.java
        DoubleMetaphonePhoneticTranscriptor.java
        MetaphonePhoneticTranscriptor.java
        PhoneticTranscriptor_ImplBase.java
        SoundexPhoneticTranscriptor.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        commonscodec
        ColognePhoneticTranscriptorTest.java
        DoubleMetaphonePhoneticTranscriptorTest.java
        MetaphonePhoneticTranscriptorTest.java
        PhoneticTranscriptorTestUtil.java
        SoundexPhoneticTranscriptorTest.java
- dkpro-core-corenlp-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        corenlp
        CoreNlpCoreferenceResolver.java
        CoreNlpDependencyParser.java
        CoreNlpLemmatizer.java
        CoreNlpNamedEntityRecognizer.java
        CoreNlpParser.java
        CoreNlpPosTagger.java
        CoreNlpSegmenter.java
        internal
        CoreNlp2DKPro.java
        DKPro2CoreNlp.java
        TokenKey.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        corenlp
        CoreNlpCoreferenceResolverTest.java
        CoreNlpDependencyParserTest.java
        CoreNlpLemmatizerTest.java
        CoreNlpNamedEntityRecognizerTest.java
        CoreNlpParserTest.java
        CoreNlpPosTaggerTest.java
        CoreNlpSegmenterTest.java
- dkpro-core-decompounding-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        decompounding
        dictionary
        Dictionary.java
        German98Dictionary.java
        JWordSplitterDictionary.java
        LinkingMorphemes.java
        SimpleDictionary.java
        igerman98
        Affix.java
        AffixType.java
        package-info.java
        package-info.java
        ranking
        AbstractRanker.java
        CompoundProbabilityRanker.java
        DummyRanker.java
        FrequencyGeometricMeanRanker.java
        MutualInformationRanker.java
        Ranker.java
        RankerList.java
        package-info.java
        splitter
        AsvToolboxSplitterAlgorithm.java
        BananaSplitterAlgorithm.java
        DataDrivenSplitterAlgorithm.java
        DecompoundedWord.java
        DecompoundingTree.java
        Fragment.java
        JWordSplitterAlgorithm.java
        LeftToRightSplitterAlgorithm.java
        SplitterAlgorithm.java
        package-info.java
        trie
        KeyValueNode.java
        TrieStructure.java
        ValueNode.java
        package-info.java
        uima
        annotator
        CompoundAnnotator.java
        package-info.java
        resource
        AsvToolboxSplitterResource.java
        BananaSplitterResource.java
        DataDrivenSplitterResource.java
        FrequencyRankerResource.java
        JWordSplitterResource.java
        LeftToRightSplitterResource.java
        MutualInformationRankerResource.java
        ProbabilityRankerResource.java
        RankerResource.java
        SharedDictionary.java
        SharedFinder.java
        SharedLinkingMorphemes.java
        SharedPatriciaTries.java
        SplitterResource.java
        package-info.java
        web1t
        Finder.java
        LuceneIndexer.java
        NGramModel.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        decompounding
        dictionary
        German98DictionaryTest.java
        LinkingMorphemesTest.java
        SimpleDictionaryTest.java
        ranking
        DummyRankerTest.java
        FrequencyBasedTest.java
        MutualInformationBasedTest.java
        ProbabilityBasedTest.java
        splitter
        BananaSplitterTest.java
        DataDrivenAlgorithmTest.java
        DecompoundedWordTest.java
        FragmentTest.java
        JWordSplitterTest.java
        LeftToRightSplitAlgorithmTest.java
        trie
        TreeNodeTest.java
        TrieTest.java
        uima
        annotator
        CompoundAnnotatorTest.java
        web1t
        FinderPerformanceTest.java
        FinderTest.java
        LuceneIndexerTest.java
- dkpro-core-dictionaryannotator-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        dictionaryannotator
        DictionaryAnnotator.java
        PhraseTree.java
        PhraseTreeElement.java
        package-info.java
        semantictagging
        SemanticFieldAnnotator.java
        SemanticTagProvider.java
        SemanticTagResource.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        dictionaryannotator
        DictionaryAnnotatorTest.java
        PhraseTreeTest.java
        semantictagging
        SemanticFieldAnnotatorTest.java
- dkpro-core-eval-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        eval
        EvalUtil.java
        measure
        FMeasure.java
        model
        Span.java
        report
        Result.java
- dkpro-core-flextag-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        flextag
        FlexTagPosTagger.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        flextag
        FlexTagPosTaggerTest.java
- dkpro-core-frequency-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        frequency
        BerkeleyLmProvider.java
        Web1TFileAccessProvider.java
        Web1TInMemoryProvider.java
        Web1TProviderBase.java
        phrasedetection
        FrequencyCounter.java
        PhraseAnnotator.java
        resources
        BerkeleyLmFrequencyCountProvider.java
        Web1TFrequencyCountResource.java
        Web1TInMemoryFrequencyCountResource.java
        tfidf
        TfidfAnnotator.java
        TfidfConsumer.java
        model
        DfModel.java
        DfStore.java
        SharedDfModel.java
        util
        FreqDist.java
        TermIterator.java
        TfidfUtils.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        frequency
        BerkeleyLmProviderTest.java
        Web1TFrequencyProviderTest.java
        Web1TInMemoryFrequencyProviderTest.java
        berkeleylm
        CreateBerkelelyLmTestBinary.java
        CreateBerkeleyLmGoogleBinary.java
        phrasedetection
        FrequencyCounterTest.java
        PhraseAnnotatorTest.java
        resources
        BerkeleyLmFrequencyCountProviderTest.java
        Web1tInMemoryResourceTest.java
        Web1tResourceTest.java
        tfidf
        TfidfAnnotatorTest.java
        TfidfConsumerTest.java
        util
        CreateTestIndexesWeb1T.java
- dkpro-core-fs-hdfs-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        fs
        hdfs
        HdfsResourceLoaderLocator.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        fs
        hdfs
        HdfsResourceLoaderLocatorTest.java
- dkpro-core-gate-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        gate
        GateLemmatizer.java
        HepplePosTagger.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        gate
        GateLemmatizerTest.java
        HepplePosTaggerTest.java
- dkpro-core-gosen-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        gosen
        GosenSegmenter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        gosen
        GosenSegmenterTest.java
- dkpro-core-hunpos-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        hunpos
        HunPosTagger.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        hunpos
        HunPosTaggerTest.java
- dkpro-core-icu-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        icu
        IcuSegmenter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        icu
        IcuSegmenterTest.java
- dkpro-core-io-aclanthology-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        aclanthology
        AclAnthologyReader.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        aclanthology
        AclArcReaderTest.java
- dkpro-core-io-ancora-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        ancora
        AncoraReader.java
        internal
        AncoraConstants.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        ancora
        AncoraReaderTest.java
- dkpro-core-io-annis-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        annis
        RelAnnisWriter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        annis
        RelAnnisWriterTest.java
- dkpro-core-io-bincas-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        bincas
        BinaryCasReader.java
        BinaryCasWriter.java
        SerializedCasReader.java
        SerializedCasWriter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        bincas
        BinaryCasWriterReaderTest.java
        SerializedCasWriterReaderTest.java
- dkpro-core-io-bliki-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        bliki
        BlikiWikipediaReader.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        bliki
        BlikiWikipediaReaderTest.java
- dkpro-core-io-bnc-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        bnc
        BncReader.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        bnc
        BncReaderTest.java
- dkpro-core-io-brat-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        brat
        BratReader.java
        BratWriter.java
        internal
        model
        BratAnnotation.java
        BratAnnotationDecl.java
        BratAnnotationDocument.java
        BratAttribute.java
        BratAttributeDecl.java
        BratAttributeDrawingDecl.java
        BratConfiguration.java
        BratConstants.java
        BratDrawingDecl.java
        BratEventAnnotation.java
        BratEventAnnotationDecl.java
        BratEventArgument.java
        BratEventArgumentDecl.java
        BratLabelDecl.java
        BratRelationAnnotation.java
        BratRelationAnnotationDecl.java
        BratTextAnnotation.java
        BratTextAnnotationDecl.java
        BratTextAnnotationDrawingDecl.java
        EventParam.java
        MappingParam.java
        RelationParam.java
        TextAnnotationParam.java
        TypeMapping.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        brat
        BratReaderWriterTest.java
        internal
        model
        BratAttributeTest.java
        BratRelationAnnotationTest.java
        BratTextAnnotationTest.java
- dkpro-core-io-combination-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        combination
        CombinationReader.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        combination
        CombinationReaderTest.java
- dkpro-core-io-conll-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        conll
        Conll2000Reader.java
        Conll2000Writer.java
        Conll2002Reader.java
        Conll2002Writer.java
        Conll2003Reader.java
        Conll2003Writer.java
        Conll2006Reader.java
        Conll2006Writer.java
        Conll2008Reader.java
        Conll2008Writer.java
        Conll2009Reader.java
        Conll2009Writer.java
        Conll2012Reader.java
        Conll2012Writer.java
        ConllUReader.java
        ConllUWriter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        conll
        Conll2000ReaderTest.java
        Conll2000ReaderWriterTest.java
        Conll2002ReaderWriterTest.java
        Conll2003ReaderWriterTest.java
        Conll2006ReaderWriterTest.java
        Conll2008ReaderWriterTest.java
        Conll2009ReaderWriterTest.java
        Conll2012ReaderWriterTest.java
        ConllUReaderTest.java
        ConllUReaderWriterTest.java
- dkpro-core-io-ditop-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        ditop
        DiTopWriter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        ditop
        DiTopWriterTest.java
- dkpro-core-io-fangorn-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        fangorn
        FangornWriter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        fangorn
        FangornWriterTest.java
- dkpro-core-io-gate-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        gate
        GateXmlReader.java
        GateXmlWriter.java
        GateXmlWriter2.java
        internal
        DKPro2Gate.java
        Gate2DKPro.java
        GateAnnieConstants.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        gate
        GateXmlWriterTest.java
        GateXmlWriterTest2.java
- dkpro-core-io-graf-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        graf
        GrafReader.java
        GrafWriter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        graf
        GrafReaderWriterTest.java
        GrafWriterTest.java
- dkpro-core-io-html-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        html
        HtmlReader.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        html
        HtmlReaderTest.java
- dkpro-core-io-imscwb-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        imscwb
        ImsCwbReader.java
        ImsCwbWriter.java
        package-info.java
        util
        CorpusSentence.java
        CorpusText.java
        TabTokenizer.java
        TextIterable.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        imscwb
        ImsCwbReaderTest.java
        ImsCwbReaderWriterTest.java
        ImsCwbWriterTest.java
        TuebadzToImsCwbPipeline.java
- dkpro-core-io-jdbc-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        jdbc
        JdbcReader.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        jdbc
        JdbcReaderExample.java
- dkpro-core-io-json-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        json
        JsonWriter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        json
        JsonWriterTest.java
- dkpro-core-io-jwpl-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        jwpl
        WikipediaArticleInfoReader.java
        WikipediaArticleReader.java
        WikipediaDiscussionReader.java
        WikipediaLinkReader.java
        WikipediaPageReader.java
        WikipediaQueryReader.java
        WikipediaReaderBase.java
        WikipediaRevisionPairReader.java
        WikipediaRevisionReader.java
        WikipediaRevisionReaderBase.java
        WikipediaStandardReaderBase.java
        WikipediaTemplateFilteredArticleReader.java
        package-info.java
        util
        WikiUtils.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        jwpl
        WikipediaArticleReaderTest.java
        WikipediaLinkReaderTest.java
        WikipediaQueryReaderTest.java
        WikipediaRevisionPairReaderTest.java
        WikipediaRevisionReaderTest.java
- dkpro-core-io-lif-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        lif
        LifReader.java
        LifWriter.java
        internal
        DKPro2Lif.java
        Lif2DKPro.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        lif
        LifReaderWriterTest.java
        LifWriterTest.java
- dkpro-core-io-lxf-asl
  - src
    - main
      - java
        org
        dkpro
        core
        io
        lxf
        LxfReader.java
        LxfWriter.java
        internal
        DKPro2Lxf.java
        Lxf2DKPro.java
        NodeIterator.java
        ToolGeneratorIndex.java
        model
        LxfAnnotatedObject.java
        LxfEdge.java
        LxfGraph.java
        LxfNode.java
        LxfObject.java
        LxfRegion.java
        LxfText.java
        LxfVocabulary.java
    - test
      - java
        org
        dkpro
        core
        io
        lxf
        LxfConverterTest.java
        LxfReaderTest.java
        LxfReaderWriterDeltaTest.java
        LxfReaderWriterTest.java
- dkpro-core-io-negra-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        negra
        NegraExportReader.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        negra
        NegraExportReaderTest.java
- dkpro-core-io-nif-asl
  - src
    - main
      - java
        org
        dkpro
        core
        io
        nif
        NifReader.java
        NifWriter.java
        internal
        DKPro2Nif.java
        ITS.java
        NIF.java
        Nif2DKPro.java
    - test
      - java
        org
        dkpro
        core
        io
        nif
        NifReaderTest.java
        NifReaderWriterTest.java
- dkpro-core-io-pdf-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        pdf
        Buckets.java
        Pdf2CasConverter.java
        PdfLayoutEventStripper.java
        PdfReader.java
        SubstitutionTrieParser.java
        Trie.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        pdf
        PdfReaderTest.java
- dkpro-core-io-penntree-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        penntree
        PennTreeNode.java
        PennTreeToJCasConverter.java
        PennTreeUtils.java
        PennTreebankChunkedReader.java
        PennTreebankCombinedReader.java
        PennTreebankCombinedWriter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        penntree
        PennTreeToJCasConverterTest.java
        PennTreeUtilsTest.java
        PennTreebankChunkedReaderTest.java
        PennTreebankCombinedReaderTest.java
        PennTreebankCombinedReaderWriterTest.java
- dkpro-core-io-rdf-asl
  - src
    - main
      - java
        org
        dkpro
        core
        io
        rdf
        RdfReader.java
        RdfWriter.java
        internal
        Rdf2Uima.java
        RdfCas.java
        Uima2Rdf.java
    - test
      - java
        org
        dkpro
        core
        io
        rdf
        RdfWriterTest.java
- dkpro-core-io-reuters-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        reuters
        ExtractReuters.java
        Reuters21578SgmlReader.java
        Reuters21578TxtReader.java
        ReutersDocument.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        reuters
        ExtractReutersTest.java
        Reuters21578SgmlReaderTest.java
        Reuters21578TxtReaderTest.java
        ReutersDocumentTests.java
- dkpro-core-io-rtf-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        rtf
        RTFReader.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        rtf
        RTFReaderTest.java
- dkpro-core-io-solr-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        solr
        SolrWriter.java
        SolrWriter_ImplBase.java
        util
        SolrUtils.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        solr
        SolrWriterTest.java
        util
        SolrUtilsTest.java
- dkpro-core-io-tcf-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tcf
        TcfReader.java
        TcfWriter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tcf
        TcfReaderTest.java
        TcfReaderWriterTest.java
        TcfWriterTest.java
- dkpro-core-io-tei-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tei
        TeiReader.java
        TeiWriter.java
        internal
        TeiConstants.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tei
        TeiReaderTest.java
        TeiReaderWriterTest.java
        TeiWriterTest.java
- dkpro-core-io-text-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        text
        StringReader.java
        TextReader.java
        TextWriter.java
        TokenizedTextWriter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        text
        TextReaderTest.java
        TextWriterTest.java
        TokenizedTextWriterTest.java
- dkpro-core-io-tgrep-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tgrep
        TGrepWriter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tgrep
        TGrepWriterTest.java
- dkpro-core-io-tiger-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tiger
        TigerXmlReader.java
        TigerXmlWriter.java
        internal
        IllegalAnnotationStructureException.java
        model
        AnnotationDecl.java
        EdgeLabelDecl.java
        FeatureDecl.java
        Meta.java
        TigerEdge.java
        TigerFeNode.java
        TigerFrame.java
        TigerFrameElement.java
        TigerGraph.java
        TigerNode.java
        TigerNonTerminal.java
        TigerPart.java
        TigerSem.java
        TigerSentence.java
        TigerSplitword.java
        TigerTarget.java
        TigerTerminal.java
        ValueDecl.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tiger
        TigerXmlReaderTest.java
        TigerXmlReaderWriterTest.java
        TigerXmlWriterTest.java
- dkpro-core-io-tika-asl
  - src
    - main
      - java
        org
        dkpro
        core
        io
        tika
        TikaReader.java
    - test
      - java
        org
        dkpro
        core
        io
        tika
        TikaReaderTest.java
- dkpro-core-io-tuebadz-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tuebadz
        TuebaDZReader.java
        package-info.java
- dkpro-core-io-tuepp-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tuepp
        TueppReader.java
        internal
        model
        TueppBaseform.java
        TueppPos.java
        TueppToken.java
        package-info.java
- dkpro-core-io-web1t-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        web1t
        Web1TWriter.java
        package-info.java
        util
        ExternalSort.java
        Web1TConverter.java
        Web1TFileConsolidator.java
        Web1TFileSorter.java
        Web1TFileSplitter.java
        Web1TUtil.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        web1t
        PipelineExample.java
        TestCreatedIndex.java
        Web1TConsolidatorTest.java
        Web1TSorterTest.java
        Web1TSplitterTest.java
        Web1TWriterTest.java
- dkpro-core-io-xces-asl
  - src
    - main
      - java
        org
        dkpro
        core
        io
        xces
        XcesBasicXmlReader.java
        XcesBasicXmlWriter.java
        XcesXmlReader.java
        XcesXmlWriter.java
        models
        XcesBody.java
        XcesBodyBasic.java
        XcesPara.java
        XcesParaBasic.java
        XcesSentence.java
        XcesToken.java
        package-info.java
    - test
      - java
        org
        dkpro
        core
        io
        xces
        XcesXmlReaderTest.java
        XcesXmlReaderWriterTest.java
- dkpro-core-io-xmi-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        xmi
        XmiReader.java
        XmiWriter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        xmi
        XmiReaderWriterTest.java
        XmiWriterReaderTest.java
- dkpro-core-io-xml-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        xml
        InlineXmlWriter.java
        XmlReader.java
        XmlTextReader.java
        XmlXPathReader.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        xml
        InlineXmlWriterTest.java
        XPathXmlReaderFeatureTest.java
        XPathXmlReaderIdValidationTest.java
- dkpro-core-ixa-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        ixa
        IxaLemmatizer.java
        IxaPosTagger.java
        internal
        IxaLemmatizerTagsetDescriptionProvider.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        ixa
        IxaLemmatizerTest.java
        IxaPosTaggerTest.java
- dkpro-core-jazzy-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        jazzy
        CorrectionsContextualizer.java
        JazzyChecker.java
        package-info.java
        util
        ContextualizerUtils.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        jazzy
        JazzyCheckerTest.java
- dkpro-core-jtok-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        jtok
        JTokSegmenter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        jtok
        JTokSegmenterTest.java
- dkpro-core-kuromoji-asl
  - src
    - main
      - java
        org
        dkpro
        core
        kuromoji
        KuromojiSegmenter.java
    - test
      - java
        org
        dkpro
        core
        kuromoji
        KuromojiSegmenterTest.java
- dkpro-core-lancaster-asl
  - src
    - main
      - java
        org
        dkpro
        core
        lancaster
        LancasterStemmer.java
        package-info.java
    - test
      - java
        org
        dkpro
        core
        lancaster
        LancasterStemmerTest.java
- dkpro-core-langdetect-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        langdetect
        LangDetectLanguageIdentifier.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        langdetect
        LangDetectLanguageIdentifierTest.java
- dkpro-core-languagetool-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        languagetool
        CjfNormalizer.java
        LanguageToolChecker.java
        LanguageToolLemmatizer.java
        LanguageToolSegmenter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        languagetool
        CjfNormalizerTest.java
        LanguageToolCheckerTest.java
        LanguageToolLemmatizerTest.java
        LanguageToolSegmenterTest.java
- dkpro-core-lbj-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        lbj
        IllinoisChunker.java
        IllinoisLemmatizer.java
        IllinoisNamedEntityRecognizer.java
        IllinoisPosTagger.java
        IllinoisSegmenter.java
        IllinoisStatefulSegmenter.java
        internal
        ConvertToIllinois.java
        ConvertToUima.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        lbj
        IllinoisChunkerTest.java
        IllinoisLemmatizerTest.java
        IllinoisNamedEntityRecognizerTest.java
        IllinoisPosTaggerTest.java
        IllinoisSegmenterTest.java
        IllinoisStatefulSegmenterTest.java
- dkpro-core-ldweb1t-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        ldweb1t
        LanguageDetectorWeb1T.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        ldweb1t
        LanguageDetectorWeb1TTest.java
- dkpro-core-lingpipe-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        lingpipe
        LingPipeNamedEntityRecognizer.java
        LingPipePosTagger.java
        LingPipeSegmenter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        lingpipe
        LingPipeNamedEntityRecognizerTest.java
        LingPipePosTaggerTest.java
        LingPipeSegmenterTest.java
- dkpro-core-mallet-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        mallet
        MalletModelTrainer.java
        lda
        MalletLdaTopicModelInferencer.java
        MalletLdaTopicModelTrainer.java
        MalletLdaTopicModelUtils.java
        io
        MalletLdaTopicProportionsWriter.java
        MalletLdaTopicsProportionsSortedWriter.java
        util
        PrintTopWords.java
        PrintTopicWordWeights.java
        wordembeddings
        MalletEmbeddingsAnnotator.java
        MalletEmbeddingsTrainer.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        mallet
        lda
        MalletLdaTopicModelInferencerTest.java
        MalletLdaTopicModelTrainerTest.java
        MalletLdaTopicModelUtilsTest.java
        MalletLdaUtil.java
        io
        MalletLdaTopicProportionsWriterTest.java
        MalletLdaTopicsProportionsSortedWriterTest.java
        wordembeddings
        MalletEmbeddingsAnnotatorTest.java
        MalletEmbeddingsTrainerTest.java
- dkpro-core-maltparser-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        maltparser
        MaltParser.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        maltparser
        MaltParserTest.java
- dkpro-core-matetools-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        matetools
        MateLemmatizer.java
        MateMorphTagger.java
        MateParser.java
        MatePosTagger.java
        MateSemanticRoleLabeler.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        matetools
        MateLemmatizerTest.java
        MateMorphTaggerTest.java
        MateParserTest.java
        MatePosTaggerTest.java
        MateSemanticRoleLabelerTest.java
- dkpro-core-mecab-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        mecab
        MeCabTagger.java
        package-info.java
        type
        JapaneseToken.java
        JapaneseToken_Type.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        mecab
        MeCabTaggerDetailedTest.java
        MeCabTaggerTest.java
        MeCabWhiteSpacesTest.java
- dkpro-core-morpha-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        morpha
        MorphaLemmatizer.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        morpha
        MorphaLemmatizerTest.java
- dkpro-core-mstparser-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        mstparser
        MstParser.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        mstparser
        MstParserTest.java
- dkpro-core-ngrams-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        ngrams
        NGramAnnotator.java
        NGramIterable.java
        package-info.java
        util
        CharacterNGramStringIterable.java
        NGramStringIterable.java
        NGramStringListIterable.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        ngrams
        NGramAnnotatorTest.java
        util
        CharacterNGramStringIterableTest.java
        NGramStringIterableTest.java
        NGramStringListIterableTest.java
- dkpro-core-nlp4j-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        nlp4j
        Nlp4JDependencyParser.java
        Nlp4JLemmatizer.java
        Nlp4JNamedEntityRecognizer.java
        Nlp4JPosTagger.java
        Nlp4JSegmenter.java
        internal
        EmoryNlp2Uima.java
        EmoryNlpUtils.java
        OnlineComponentTagsetDescriptionProvider.java
        Uima2EmoryNlp.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        nlp4j
        EnglishTokenizerTest.java
        Nlp4JDependencyParserTest.java
        Nlp4JLemmatizerTest.java
        Nlp4JNamedEntityRecognizerTest.java
        Nlp4JPosTaggerTest.java
        Nlp4JSegmenterTest.java
- dkpro-core-norvig-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        norvig
        NorvigSpellingAlgorithm.java
        NorvigSpellingCorrector.java
        package-info.java
- dkpro-core-opennlp-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        opennlp
        OpenNlpChunker.java
        OpenNlpChunkerTrainer.java
        OpenNlpLemmatizer.java
        OpenNlpLemmatizerTrainer.java
        OpenNlpNamedEntityRecognizer.java
        OpenNlpNamedEntityRecognizerTrainer.java
        OpenNlpParser.java
        OpenNlpPosTagger.java
        OpenNlpPosTaggerTrainer.java
        OpenNlpSegmenter.java
        OpenNlpSentenceTrainer.java
        OpenNlpTokenTrainer.java
        internal
        CasChunkSampleStream.java
        CasLemmaSampleStream.java
        CasNameSampleStream.java
        CasPosSampleStream.java
        CasSampleStreamBase.java
        CasSentenceSampleStream.java
        CasTokenSampleStream.java
        OpenNlpChunkerTagsetDescriptionProvider.java
        OpenNlpParserTagsetDescriptionProvider.java
        OpenNlpSequenceTagsetDescriptionProvider.java
        OpenNlpTagsetDescriptionProvider.java
        OpenNlpTrainerBase.java
        package-info.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        opennlp
        OpenNlpChunkerTest.java
        OpenNlpChunkerTrainerTest.java
        OpenNlpLemmatizerTrainerTest.java
        OpenNlpNamedEntityRecognizerTest.java
        OpenNlpNamedEntityRecognizerTrainerTest.java
        OpenNlpParserTest.java
        OpenNlpPosTaggerTest.java
        OpenNlpPosTaggerTrainerTest.java
        OpenNlpSegmenterTest.java
        OpenNlpSentenceTrainerTest.java
        OpenNlpTokenTrainerTest.java
- dkpro-core-performance-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        performance
        PerformanceTestUtil.java
        Stopwatch.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        performance
        OpenNlpPosTaggerTest.java
- dkpro-core-posfilter-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        posfilter
        PosFilter.java
        PosMapper.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        posfilter
        PosFilterTest.java
        PosMapperTest.java
- dkpro-core-readability-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        readability
        ReadabilityAnnotator.java
        measure
        ReadabilityMeasures.java
        WordSyllableCounter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        readability
        ReadabilityAnnotatorTest.java
        ReadabilityMeasuresTest.java
        WordSyllableCounterTest.java
- dkpro-core-rftagger-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        rftagger
        RfTagger.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        rftagger
        RfTaggerTest.java
- dkpro-core-sfst-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        sfst
        SfstAnnotator.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        sfst
        SfstAnnotatorTest.java
- dkpro-core-snowball-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        snowball
        SnowballStemmer.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        snowball
        SnowballStemmerTest.java
- dkpro-core-stanfordnlp-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        stanfordnlp
        StanfordCoreferenceResolver.java
        StanfordDependencyConverter.java
        StanfordLemmatizer.java
        StanfordNamedEntityRecognizer.java
        StanfordNamedEntityRecognizerTrainer.java
        StanfordParser.java
        StanfordPosTagger.java
        StanfordPosTaggerTrainer.java
        StanfordPtbTransformer.java
        StanfordSegmenter.java
        StanfordSentimentAnalyzer.java
        internal
        RootKey.java
        TokenKey.java
        package-info.java
        util
        CasCopier.java
        CoreNlpUtils.java
        StanfordAnnotator.java
        TreeUtils.java
        TreeWithTokens.java
        UIMAAnnotations.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        stanfordnlp
        ReuseTest.java
        StanfordCoreferenceResolverTest.java
        StanfordDependencyConverterTest.java
        StanfordLemmatizerTest.java
        StanfordNamedEntityRecognizerTest.java
        StanfordNamedEntityRecognizerTrainerTest.java
        StanfordParserTest.java
        StanfordPosTaggerTest.java
        StanfordPosTaggerTrainerTest.java
        StanfordPtbTransformerTest.java
        StanfordSegmenterTest.java
        StanfordSentimentAnalyzerTest.java
- dkpro-core-stopwordremover-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        stopwordremover
        StopWordRemover.java
        StopWordSet.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        stopwordremover
        StopWordRemoverTest.java
- dkpro-core-testing-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        testing
        AssertAnnotations.java
        AssumeResource.java
        DkproTestContext.java
        DocumentMetaDataStripper.java
        IOTestRunner.java
        TagsetDescriptionStripper.java
        TestOptions.java
        TestRunner.java
        dumper
        CasDumpWriter.java
        DependencyDumper.java
        harness
        SegmenterHarness.java
        validation
        CasAnalysisUtils.java
        CasValidator.java
        CasValidatorComponent.java
        Message.java
        checks
        AllAnnotationsIndexedCheck.java
        BasicDependenciesFormATreeCheck.java
        Check.java
        DependencyRootSelfLoopCheck.java
        DependencyRootTypeCheck.java
        LemmaAttachedToTokenCheck.java
        MorphologicalFeaturesAttachedToTokenCheck.java
        NoZeroSizeTokensAndSentencesCheck.java
        ParentSetCheck.java
        PosAttachedToTokenCheck.java
        StemAttachedToTokenCheck.java
        TokenAttributeAttachedToTokenCheck_ImplBase.java
        extras
        AllTokensHavePos.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        testing
        AssertAnnotationsTest.java
        validation
        checks
        NoZeroSizeTokenAndSentenceCheckTest.java
        PosAttachedToTokenCheckTest.java
- dkpro-core-textcat-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        textcat
        LanguageIdentifier.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        textcat
        LanguageIdentifierTest.java
- dkpro-core-textnormalizer-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        textnormalizer
        Normalizer_ImplBase.java
        ReplacementFileNormalizer.java
        SpellingNormalizer.java
        annotations
        AnnotationByTextFilter.java
        RegexTokenFilter.java
        TrailingCharacterRemover.java
        casfilter
        CasFilter_ImplBase.java
        factory
        NormalizerFactory.java
        frequency
        CapitalizationNormalizer.java
        ExpressiveLengtheningNormalizer.java
        ReplacementFrequencyNormalizer_ImplBase.java
        SharpSNormalizer.java
        UmlautNormalizer.java
        internal
        AnnotationComparator.java
        transformation
        DictionaryBasedTokenTransformer.java
        FileBasedTokenTransformer.java
        HyphenationRemover.java
        RegexBasedTokenTransformer.java
        TokenCaseTransformer.java
        util
        CreateNormalizerModel.java
        JCasHolder.java
        NormalizationUtils.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        textnormalizer
        JWeb1TFrequencyProviderTest.java
        MultiNormalizationTest.java
        ReplacementFileNormalizerTest.java
        SpellingNormalizerTest.java
        annotations
        AnnotationByTextFilterTest.java
        RegexTokenFilterTest.java
        TrailingCharacterRemoverTest.java
        casfilter
        CasFilter_ImplBaseTest.java
        factory
        NormalizerFactoryTest.java
        frequency
        CapitalizationNormalizerTest.java
        ExpressiveLengtheningNormalizerTest.java
        SharpSNormalizerTest.java
        UmlautNormalizerTest.java
        transformation
        DictionaryBasedTokenTransformerTest.java
        FileBasedTokenTransformerTest.java
        HyphenationRemoverTest.java
        JCasTransformerChangeBased_ImplBaseTest.java
        JCasTransformer_ImplBaseTest.java
        RegexBasedTokenTransformerTest.java
        TokenCaseTransformerTest.java
- dkpro-core-tokit-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        tokit
        AnnotationByLengthFilter.java
        BreakIteratorSegmenter.java
        CamelCaseTokenSegmenter.java
        GermanSeparatedParticleAnnotator.java
        LineBasedSentenceSegmenter.java
        ParagraphSplitter.java
        PatternBasedTokenSegmenter.java
        RegexSegmenter.java
        TokenMerger.java
        TokenTrimmer.java
        WhitespaceSegmenter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        tokit
        AnnotationByLengthFilterTest.java
        BreakIteratorSegmenterTest.java
        CamelCaseSegmenterTest.java
        GermanSeparatedParticleAnnotatorTest.java
        LineBasedSentenceSegmenterTest.java
        ParagraphSplitterTest.java
        PatternBasedTokenSegmenterTest.java
        RegexSegmenterTest.java
        TokenMergerTest.java
        WhitespaceSegmenterTest.java
- dkpro-core-treetagger-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        treetagger
        TreeTaggerChunker.java
        TreeTaggerPosTagger.java
        internal
        DKProExecutableResolver.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        treetagger
        SegmenterCompatibilityTest.java
        TreeTaggerChunkerTest.java
        TreeTaggerPosTaggerTest.java
- dkpro-core-udpipe-asl
  - src
    - main
      - java
        org
        dkpro
        core
        udpipe
        UDPipeParser.java
        UDPipePosTagger.java
        UDPipeSegmenter.java
        internal
        DKPro2UDPipe.java
        UDPipe2DKPro.java
        UDPipeUtils.java
    - test
      - java
        org
        dkpro
        core
        udpipe
        UDPipeParserTest.java
        UDPipePosTaggerTest.java
        UDPipeSegmenterTest.java

/*
 * Copyright 2010
 * Ubiquitous Knowledge Processing (UKP) Lab
 * Technische Universität Darmstadt
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *   http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package de.tudarmstadt.ukp.dkpro.core.io.jwpl;

import java.io.IOException;
import java.util.Arrays;
import java.util.HashSet;
import java.util.Iterator;
import java.util.LinkedList;
import java.util.List;
import java.util.Set;

import org.apache.uima.UimaContext;
import org.apache.uima.collection.CollectionException;
import org.apache.uima.fit.descriptor.ConfigurationParameter;
import org.apache.uima.fit.descriptor.TypeCapability;
import org.apache.uima.jcas.JCas;
import org.apache.uima.resource.ResourceInitializationException;
import org.apache.uima.util.Progress;
import org.apache.uima.util.ProgressImpl;

import de.tudarmstadt.ukp.dkpro.core.api.metadata.type.DocumentMetaData;
import de.tudarmstadt.ukp.dkpro.core.io.jwpl.util.WikiUtils;
import de.tudarmstadt.ukp.wikipedia.api.Page;
import de.tudarmstadt.ukp.wikipedia.api.WikiConstants;
import de.tudarmstadt.ukp.wikipedia.api.exception.WikiApiException;
import de.tudarmstadt.ukp.wikipedia.api.exception.WikiPageNotFoundException;
import de.tudarmstadt.ukp.wikipedia.api.exception.WikiTitleParsingException;
import de.tudarmstadt.ukp.wikipedia.parser.ParsedPage;
import de.tudarmstadt.ukp.wikipedia.parser.mediawiki.FlushTemplates;
import de.tudarmstadt.ukp.wikipedia.parser.mediawiki.MediaWikiParser;
import de.tudarmstadt.ukp.wikipedia.parser.mediawiki.MediaWikiParserFactory;
import de.tudarmstadt.ukp.wikipedia.util.templates.WikipediaTemplateInfo;
import de.tudarmstadt.ukp.wikipedia.util.templates.WikipediaTemplateInfoGenerator;

/**
 * Reads all pages that contain or do not contain the templates specified in the template whitelist
 * and template blacklist.
 * 
 * <p>
 * It is possible to just define a whitelist OR a blacklist. If both whitelist and blacklist are
 * provided, the articles are chosen that DO contain the templates from the whitelist and at the
 * same time DO NOT contain the templates from the blacklist (= the intersection of the
 * "whitelist page set" and the "blacklist page set")
 * </p>
 * 
 * <p>
 * This reader only works if template tables have been generated for the JWPL database using the
 * {@link WikipediaTemplateInfoGenerator}.
 * </p>
 * 
 * <p>
 * <strong>NOTE:</strong> This reader directly extends the {@link WikipediaReaderBase} and not the
 * {@link WikipediaStandardReaderBase}
 * </p>
 *
 */
@TypeCapability(outputs = { "de.tudarmstadt.ukp.dkpro.core.io.jwpl.type.DBConfig",
        "de.tudarmstadt.ukp.dkpro.core.api.metadata.type.DocumentMetaData" })
public class WikipediaTemplateFilteredArticleReader
    extends WikipediaReaderBase
{
    /** If set to true, only the first paragraph instead of the whole article is used. */
    public static final String PARAM_ONLY_FIRST_PARAGRAPH = "OnlyFirstParagraph";
    @ConfigurationParameter(name = PARAM_ONLY_FIRST_PARAGRAPH, mandatory=true, defaultValue="false")
    private boolean onlyFirstParagraph;

	/** Whether the reader outputs plain text or wiki markup. */
	public static final String PARAM_OUTPUT_PLAIN_TEXT = "OutputPlainText";
	@ConfigurationParameter(name = PARAM_OUTPUT_PLAIN_TEXT, mandatory = true, defaultValue = "true")
	private boolean outputPlainText;

	/** Whether the reader should read also include talk pages. */
	public static final String PARAM_INCLUDE_DISCUSSION_PAGES = "IncludeDiscussions";
	@ConfigurationParameter(name = PARAM_INCLUDE_DISCUSSION_PAGES, mandatory = true, defaultValue = "true")
	private boolean inludeDiscussions;

    /**
     * If this option is set, discussion pages are rejected that are associated with a blacklisted
     * article. Analogously, articles are rejected that are associated with a blacklisted discussion
     * page.
     * <p>
     * This check is rather expensive and could take a long time. This is option is not active if
     * only a whitelist is used.
     * </p>
     * <p>
     * Default Value: false
     * </p>
     */
	public static final String PARAM_DOUBLE_CHECK_ASSOCIATED_PAGES = "DoubleCheckAssociatedPages";
	@ConfigurationParameter(name = PARAM_DOUBLE_CHECK_ASSOCIATED_PAGES, mandatory = true, defaultValue = "false")
	private boolean doubleCheckWhitelistedArticles;

    /**
     * Optional parameter that allows to define the max number of articles that should be delivered
     * by the reader.
     * <p>
     * This avoids unnecessary filtering if only a small number of articles is needed.
     * </p>
     */
	public static final String PARAM_LIMIT_NUMBER_OF_ARTICLES_TO_READ = "LimitNUmberOfArticlesToRead";
	@ConfigurationParameter(name = PARAM_LIMIT_NUMBER_OF_ARTICLES_TO_READ, mandatory = false)
	private Integer articleLimit;

    /**
     * Defines templates that the articles MUST contain.
     * <p>
     * If you also define a blacklist, the intersection of both sets is used. (= pages that DO
     * contain templates from the whitelist, but DO NOT contain templates from the blacklist)
     * </p>
     */
	public static final String PARAM_TEMPLATE_WHITELIST = "TemplateWhitelist";
	@ConfigurationParameter(name = PARAM_TEMPLATE_WHITELIST, mandatory = false)
	private String[] templateWhitelistArray;

    /**
     * Defines templates that the articles MUST NOT contain.
     * <p>
     * If you also define a whitelist, the intersection of both sets is used. (= pages that DO
     * contain templates from the whitelist, but DO NOT contain templates from the blacklist)
     * </p>
     */
	public static final String PARAM_TEMPLATE_BLACKLIST = "TemplateBlacklist";
	@ConfigurationParameter(name = PARAM_TEMPLATE_BLACKLIST, mandatory = false)
	private String[] templateBlacklistArray;

	/**
	 * Defines whether to match the templates exactly or whether to match all
	 * templates that start with the String given in the respective parameter
	 * list.
	 * <p>Default Value: {@code true}</p>
	 */
	public static final String PARAM_EXACT_TEMPLATE_MATCHING = "ExactTemplateMatching";
	@ConfigurationParameter(name = PARAM_EXACT_TEMPLATE_MATCHING, mandatory = true, defaultValue="true")
	private boolean exactTemplateMatching;

    /** The page buffer size (#pages) of the page iterator. */
	public static final String PARAM_PAGE_BUFFER = "PageBuffer";
	@ConfigurationParameter(name = PARAM_PAGE_BUFFER, mandatory = true, defaultValue = "1000")
	private int pageBuffer;

	private List<Page> bufferedPages;
	private List<Integer> pageIds;

	List<String> templateBlacklist;
	List<String> templateWhitelist;

	private long currentArticleIndex;
	private long nrOfArticles;

	private MediaWikiParser parser;
	private WikipediaTemplateInfo tplInfo;


	@Override
	public void initialize(UimaContext context)
		throws ResourceInitializationException
	{
		super.initialize(context);

		if(articleLimit!=null){
			getLogger().info("Article limit is set to " + articleLimit + " The reader won't " +
					"deliver all pages that meet the requirements. Remove " +
					"PARAM_LIMIT_NUMBER_OF_ARTICLES_TO_READ if that is not what you want.");
		}

		if (templateBlacklistArray == null && templateWhitelistArray == null) {
			throw new ResourceInitializationException();
		}

		try {
			bufferedPages = new LinkedList<Page>();
			pageIds = new LinkedList<Integer>();
			tplInfo = new WikipediaTemplateInfo(wiki);

			Iterable<Integer> filteredIds = null;

			// WHITELIST FILTER
			Set<Integer> wlSet = null;
			if (templateWhitelistArray != null && templateWhitelistArray.length > 0) {

				//convert array to list
				templateWhitelist = Arrays.asList(templateWhitelistArray);
				wlSet = new HashSet<Integer>();

				if (exactTemplateMatching) {
					filteredIds = tplInfo.getPageIdsContainingTemplateNames(
							templateWhitelist);
				}
				else {
					filteredIds = tplInfo.getPageIdsContainingTemplateFragments(
							templateWhitelist);
				}

				for (Integer id : filteredIds) {
					wlSet.add(id);
				}
				getLogger().info("The whitelist contains "+templateWhitelist.size()+" templates");
				getLogger().info(wlSet.size()+" articles are whitelisted");
			}else{
				getLogger().info("No whitelist active");
			}

			// BLACKLIST FILTER
			Set<Integer> blSet = null;
			if (templateBlacklistArray != null && templateBlacklistArray.length > 0) {

				//convert array to list
				templateBlacklist =Arrays.asList(templateBlacklistArray);
				blSet = new HashSet<Integer>();

				if(wlSet!=null){
					//if the whitelist is active, we can just treat the blacklist
					//as another whitelist and remove all items from the whitelist
					//that are also in the blacklist.
					//This way, we don't have to perform the expensive
					//getPageIdsNotContainingTemplateNames operation here
					if (exactTemplateMatching) {
						filteredIds = tplInfo.getPageIdsContainingTemplateNames(
										templateBlacklist);
					}
					else {
						filteredIds = tplInfo.getPageIdsContainingTemplateFragments(
								templateBlacklist);
					}
					for (Integer id : filteredIds) {
						blSet.add(id);
					}
					getLogger().info("The blacklist contains "+templateBlacklist.size()+" templates");
					getLogger().info(blSet.size()+" articles are blacklisted");
				}else{
					//if the whitelist is not active, we have to treat the
					//the blacklist like a real blacklist and call the
					//rather expensive getPageIdsNotContainingTemplateNames()
					if (exactTemplateMatching) {
						filteredIds = tplInfo.getPageIdsNotContainingTemplateNames(
								templateBlacklist);
					}
					else {
						filteredIds = tplInfo.getPageIdsNotContainingTemplateFragments(
								templateBlacklist);
					}
					for (Integer id : filteredIds) {
						blSet.add(id);
					}
					getLogger().info("The blacklist contains "+templateBlacklist.size()+" templates");
					getLogger().info(blSet.size()+" articles are NOT blacklisted");
				}
			}else{
				getLogger().info("No blacklist active");
			}

			// GET FINAL ID LIST
			if (blSet != null && wlSet != null) {
				//here, blSet contains pages CONTAINING the blacklisted tpls

				//so, first remove blacklisted pages from the whitelist
				wlSet.removeAll(blSet);

				if(articleLimit!=null){
					//limit number of articles, if necessary
					Set<Integer> tempWlSet = new HashSet<Integer>();
					tempWlSet.addAll(wlSet);
					wlSet.clear();
					Iterator<Integer> ids = tempWlSet.iterator();
					for(int i=0;i<articleLimit;i++){
						if(ids.hasNext()){
							wlSet.add(ids.next());
						}
					}
				}

				//now double filter, if necessary
				if(doubleCheckWhitelistedArticles){
					getLogger().info("Double checking "+wlSet.size()+" articles");

					//if doublecheck-param is set, double check whitelisted
					//articles against the blacklist before adding them
					pageIds.addAll(doubleCheckAssociatedArticles(wlSet, blSet));
				}else{
					pageIds.addAll(wlSet);
				}
			}
			else if (blSet == null && wlSet != null) {

				if(articleLimit!=null){
					//limit number of articles, if necessary
					Set<Integer> tempWlSet = new HashSet<Integer>();
					tempWlSet.addAll(wlSet);
					wlSet.clear();
					Iterator<Integer> ids = tempWlSet.iterator();
					for(int i=0;i<articleLimit;i++){
						if(ids.hasNext()){
							wlSet.add(ids.next());
						}
					}
				}
				pageIds.addAll(wlSet);
			}
			else if (blSet != null && wlSet == null) {
				if(articleLimit!=null){
					//limit number of articles, if necessary
					Set<Integer> tempBlSet = new HashSet<Integer>();
					tempBlSet.addAll(blSet);
					blSet.clear();
					Iterator<Integer> ids = tempBlSet.iterator();
					for(int i=0;i<articleLimit;i++){
						if(ids.hasNext()){
							blSet.add(ids.next());
						}
					}
				}
				//here, blSet contains pages NOT containing the blacklisted tpls
				//now add remaining pages to the pageId list
				if(doubleCheckWhitelistedArticles){
					getLogger().info("Double checking "+blSet.size()+" articles");

					//if doublecheck-param is set, double check the articles
					//that are not blacklisted against the blacklist
					Set<Integer> blacklistedArticles=new HashSet<Integer>();
					if (exactTemplateMatching) {
						blacklistedArticles.addAll(tplInfo.getPageIdsNotContainingTemplateNames(
								templateBlacklist));
					}
					else {
						blacklistedArticles.addAll(tplInfo.getPageIdsNotContainingTemplateFragments(
								templateBlacklist));
					}
					pageIds.addAll(doubleCheckAssociatedArticles(blSet, blacklistedArticles));
				}else{
					pageIds.addAll(blSet);
				}

			}

			this.nrOfArticles = pageIds.size();

			getLogger().info("Reading "+nrOfArticles+" pages");

		}
		catch (Exception e) {
			throw new ResourceInitializationException(e);
		}

		currentArticleIndex = 0;

	    //TODO Use SWEBLE
		MediaWikiParserFactory pf = new MediaWikiParserFactory();
		pf.setTemplateParserClass(FlushTemplates.class);

		parser = pf.createParser();
	}

	@Override
	public boolean hasNext()
		throws IOException, CollectionException
	{
		return !pageIds.isEmpty()||!bufferedPages.isEmpty();
	}

	@Override
	public void getNext(JCas jcas)
		throws IOException, CollectionException
	{
		super.getNext(jcas);

		Page page = null;
		try {
			//fill buffer if empty
			if(bufferedPages.isEmpty()) {
				getLogger().trace("Filling buffer");
				for (int i = 0; i < (pageIds.size() < pageBuffer ? pageIds.size() : pageBuffer); i++) {
					bufferedPages.add(wiki.getPage(pageIds.remove(0)));
				}
			}
			//get next page from buffer
			page = bufferedPages.remove(0);

			getLogger().trace("Processing article: " + page.getTitle());

			addDocumentMetaData(jcas, page);

			if (!isValidPage(page)) {
				jcas.setDocumentText("");
				return;
			}

			if (outputPlainText) {
				jcas.setDocumentText(WikiUtils
						.cleanText(getPlainDocumentText(page)));
			}
			else {
				jcas.setDocumentText(getDocumentText(page));
			}

		}
		catch (WikiApiException e) {
			throw new CollectionException(e);
		}

		currentArticleIndex++;
	}

    /**
     * Only accept article pages and (if includeDiscussions=true) talk pages
     *
     * @param page
     *            the page that should be checked for validity
     * @return true, if page is valid. false, else
     * @throws WikiTitleParsingException
     *             if the page title cannot be parsed.
     */
	private boolean isValidPage(Page page)
		throws WikiTitleParsingException
	{
		return !page.isDisambiguation() && !page.isRedirect()
				&& (inludeDiscussions || (!inludeDiscussions && !page.isDiscussion()));
	}

	@Override
	public Progress[] getProgress()
	{
		return new Progress[] { new ProgressImpl(
				Long.valueOf(currentArticleIndex).intValue(),
				Long.valueOf(nrOfArticles).intValue(), Progress.ENTITIES) };
	}

	private String getDocumentText(Page page)
	{
		return page.getText();
	}

	private String getPlainDocumentText(Page page)
    {
        String text = "";
        ParsedPage pp = parser.parse(page.getText());

        if (onlyFirstParagraph) {
            if (pp != null && pp.getParagraph(0) != null) {
                text = pp.getParagraph(0).getText();
            }
        }
        else {
            if (pp != null ) {
                text = pp.getText();
            }
        }
        return text;
    }

    /**
     * Double checks a list of page ids and checks for each id that belongs to a discussion page the
     * corresponding article if it is blacklisted<br/>
     * <br/>
     * This is an rather expensive operation!
     *
     * @param idsToDoubleCheck
     *            the set of ids that should be double checked
     * @param blIds
     *            a set with ids of blacklisted articles
     * @return a the list of articles after double checking
     * @throws WikiApiException
     *             if the wiki data cannot be accessed.
     */
    private Set<Integer> doubleCheckAssociatedArticles(Set<Integer> idsToDoubleCheck,
            Set<Integer> blIds)
        throws WikiApiException
    {
        if (idsToDoubleCheck.size() > 20000) {
			getLogger().info("You want to double check "+idsToDoubleCheck.size()+" articles in the whitelist. This can take a very long time."+System.getProperty("line.separator")+
					"If you do not need ALL pages that meet the specified requirements, you might speed things up by setting PARAM_LIMIT_NUMBER_OF_ARTICLES_TO_READ.");
		}

		Set<Integer> doubleFilteredArticles = new HashSet<Integer>();

		//do the additional filtering
		for(Integer id: idsToDoubleCheck){
			try{
				String curPageTitle = wiki.getTitle(id).getWikiStyleTitle();

				//check associated discussion or article
				if(curPageTitle.startsWith(WikiConstants.DISCUSSION_PREFIX)){
					curPageTitle = curPageTitle.replaceAll(WikiConstants.DISCUSSION_PREFIX, "");

		    		if(curPageTitle.contains("/")){
		        		//If we have a discussion archive
		    			String[] parts = curPageTitle.split("/");
		    			if(parts!=null&&parts.length>0&&parts[0].length()>0){
		    				curPageTitle = parts[0];
		    			}

		    		}

					List<Integer> curArticleIds = wiki.getPageIds(curPageTitle);
					for(int curArtId:curArticleIds){
						if(blIds.contains(curArtId)){
							//select id of current page for removal
							doubleFilteredArticles.add(id);
						}
					}
				}else{
					List<Integer> curDiscussionIds = wiki.getPageIds(WikiConstants.DISCUSSION_PREFIX+curPageTitle);
					for(int curDiscId:curDiscussionIds){
						if(blIds.contains(curDiscId)){
							//select id of current page for removal
							doubleFilteredArticles.add(id);
						}
					}
				}
			}catch(WikiPageNotFoundException e){
				//just go on with the next id
			}
		}

		idsToDoubleCheck.removeAll(doubleFilteredArticles);
		return idsToDoubleCheck;
	}

	private void addDocumentMetaData(JCas jcas, Page page)
		throws WikiTitleParsingException
	{
		DocumentMetaData metaData = DocumentMetaData.create(jcas);
		metaData.setDocumentTitle(page.getTitle().getWikiStyleTitle());
		metaData.setCollectionId(Integer.valueOf(page.getPageId()).toString());
		metaData.setDocumentId(Integer.valueOf(page.getPageId()).toString());
		metaData.setLanguage(dbconfig.getLanguage().toString());
	}
}