PdfLayoutEventStripper.java example

Explorer

dkpro-core-master
- dkpro-core-api-anomaly-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        anomaly
        AnomalyApiConstants.java
        package-info.java
- dkpro-core-api-coref-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        coref
        CorefApiConstants.java
        package-info.java
        type
        CoreferenceChain.java
        CoreferenceChain_Type.java
        CoreferenceLink.java
        CoreferenceLink_Type.java
- dkpro-core-api-datasets-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        datasets
        ActionDescription.java
        ArtifactDescription.java
        DataPackage.java
        Dataset.java
        DatasetDescription.java
        DatasetFactory.java
        DatasetLoader.java
        FileRole.java
        LicenseDescription.java
        Split.java
        internal
        ActionDescriptionImpl.java
        ArtifactDescriptionImpl.java
        DatasetDescriptionImpl.java
        LicenseDescriptionImpl.java
        LoadedDataset.java
        SplitImpl.java
        actions
        Action_ImplBase.java
        Explode.java
        ud
        UDDataset.java
        util
        AntFileFilter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        datasets
        DatasetFactoryTest.java
        DatasetLoaderTest.java
        FindEncoding.java
- dkpro-core-api-embeddings-asl
  - src
    - main
      - java
        org
        dkpro
        core
        api
        embeddings
        Vectorizer.java
        VectorizerUtils.java
        binary
        BinaryVectorizer.java
        BinaryWordVectorUtils.java
        text
        TextFormatVectorizer.java
        TextFormatVectorizerUtils.java
    - test
      - java
        org
        dkpro
        core
        api
        embeddings
        VectorizerUtilsTest.java
        binary
        BinaryWordVectorUtilsTest.java
        text
        TextFormatVectorizerTest.java
        TextFormatVectorizerUtilsTest.java
- dkpro-core-api-featurepath-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        featurepath
        Condition.java
        FeaturePathAnnotatorBase.java
        FeaturePathException.java
        FeaturePathFactory.java
        FeaturePathInfo.java
        FeaturePathUtils.java
        FilterOp.java
        package-info.java
- dkpro-core-api-frequency-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        frequency
        FrequencyCountResourceBase.java
        TestFrequencyCountResource.java
        package-info.java
        provider
        FrequencyCountProvider.java
        FrequencyCountProviderBase.java
        TestFrequencyCountProvider.java
        util
        ConditionalFrequencyDistribution.java
        FrequencyDistribution.java
        FrequencyUtils.java
        TermFreqTuple.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        frequency
        TestFrequencyCountResourceTest.java
        provider
        TestFrequencyProviderTest.java
        util
        ConditionalFrequencyDistributionTest.java
        FrequencyDistributionTest.java
- dkpro-core-api-io-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        io
        BilouDecoder.java
        FileSetCollectionReaderBase.java
        IobDecoder.java
        IobEncoder.java
        JCasFileSetCollectionReader_ImplBase.java
        JCasFileWriter_ImplBase.java
        JCasResourceCollectionReader_ImplBase.java
        ProgressMeter.java
        ResourceCollectionReaderBase.java
        ResourceLoaderLocator.java
        TextUtils.java
        package-info.java
        sequencegenerator
        PhraseSequenceGenerator.java
        StringSequenceGenerator.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        io
        BilouDecoderTest.java
        FileSetCollectionReaderBaseTest.java
        IobDecoderTest.java
        IobEncoderTest.java
        JCasFileWriter_ImplBaseTest.java
        ResourceCollectionReaderBaseTest.java
        TextUtilsTest.java
        sequencegenerator
        PhraseSequenceGeneratorTest.java
        StringSequenceGeneratorTest.java
- dkpro-core-api-lexmorph-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        lexmorph
        morph
        MorphologicalFeaturesParser.java
        internal
        AnalysisMapping.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        lexmorph
        tagset
        MappingsTest.java
- dkpro-core-api-metadata-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        metadata
        AggregateTagset.java
        SingletonTagset.java
        Tagset.java
        TagsetBase.java
        TagsetMetaData.java
        type
        DocumentMetaData.java
        DocumentMetaData_Type.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        metadata
        type
        DocumentMetaDataTest.java
        MetaDataStringFieldTest.java
- dkpro-core-api-parameter-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        parameter
        AnnotationChecker.java
        ComponentParameters.java
        Messages.java
        MimeTypes.java
      - test
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        parameter
        ComponentParametersTest.java
- dkpro-core-api-phonetics-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        phonetics
        package-info.java
        util
        SoundUtils.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        phonetics
        util
        SoundUtilsTest.java
- dkpro-core-api-resources-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        resources
        CasConfigurableProviderBase.java
        CasConfigurableStreamProviderBase.java
        CompressionMethod.java
        CompressionUtils.java
        DkproContext.java
        HasResourceMetadata.java
        HasTagsets.java
        LittleEndianDataInputStream.java
        MappingProvider.java
        MappingProviderFactory.java
        MappingUtils.java
        ModelProviderBase.java
        PlatformDetector.java
        ResourceMetadata.java
        ResourceObjectProviderBase.java
        ResourceUtils.java
        RuntimeProvider.java
        internal
        ApacheCommonsLoggingAdapter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        resources
        CompressionUtilsTest.java
        MappingProviderTest.java
        ResourceObjectProviderTest.java
        ResourceUtilsTest.java
- dkpro-core-api-segmentation-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        segmentation
        SegmenterBase.java
        package-info.java
        type
        Compound.java
        Compound_Type.java
        Token.java
        Token_Type.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        segmentation
        type
        CompoundTest.java
- dkpro-core-api-syntax-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        syntax
        type
        dependency
        DependencyFlavor.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        syntax
        tagset
        MappingsTest.java
- dkpro-core-api-transform-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        transform
        JCasTransformerChangeBased_ImplBase.java
        JCasTransformer_ImplBase.java
        alignment
        AbstractInterval.java
        AlignedString.java
        ImmutableInterval.java
        Interval.java
        WeakHashSet.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        api
        transform
        JCasTransformerChangeBasedTest.java
        alignment
        AlignedStringTest.java
- dkpro-core-arktools-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        arktools
        ArktweetPosTagger.java
        ArktweetTokenizer.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        arktools
        ArktweetTaggerTest.java
        ArktweetTokenizationTest.java
- dkpro-core-berkeleyparser-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        berkeleyparser
        BerkeleyParser.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        berkeleyparser
        BerkeleyParserTest.java
- dkpro-core-castransformation-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        castransformation
        ApplyChangesAnnotator.java
        Backmapper.java
        internal
        AlignmentStorage.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        castransformation
        ApplyChangesBackmapperTest.java
- dkpro-core-clearnlp-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        clearnlp
        ClearNlpLemmatizer.java
        ClearNlpParser.java
        ClearNlpPosTagger.java
        ClearNlpSegmenter.java
        ClearNlpSemanticRoleLabeler.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        clearnlp
        ClearNlpLemmatizerTest.java
        ClearNlpParserTest.java
        ClearNlpPosTaggerTest.java
        ClearNlpSegmenterTest.java
        ClearNlpSemanticRoleLabelerTest.java
- dkpro-core-cogroo-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        cogroo
        CogrooChecker.java
        CogrooFeaturizer.java
        CogrooLemmatizer.java
        CogrooNamedEntityRecognizer.java
        CogrooPosTagger.java
        CogrooSegmenter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        cogroo
        CogrooCheckerTest.java
        CogrooFeaturizerTest.java
        CogrooLemmatizerTest.java
        CogrooNamedEntityRecognizerTest.java
        CogrooPosTaggerTest.java
        CogrooSegmenterTest.java
        SimpleTest.java
- dkpro-core-commonscodec-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        commonscodec
        ColognePhoneticTranscriptor.java
        DoubleMetaphonePhoneticTranscriptor.java
        MetaphonePhoneticTranscriptor.java
        PhoneticTranscriptor_ImplBase.java
        SoundexPhoneticTranscriptor.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        commonscodec
        ColognePhoneticTranscriptorTest.java
        DoubleMetaphonePhoneticTranscriptorTest.java
        MetaphonePhoneticTranscriptorTest.java
        PhoneticTranscriptorTestUtil.java
        SoundexPhoneticTranscriptorTest.java
- dkpro-core-corenlp-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        corenlp
        CoreNlpCoreferenceResolver.java
        CoreNlpDependencyParser.java
        CoreNlpLemmatizer.java
        CoreNlpNamedEntityRecognizer.java
        CoreNlpParser.java
        CoreNlpPosTagger.java
        CoreNlpSegmenter.java
        internal
        CoreNlp2DKPro.java
        DKPro2CoreNlp.java
        TokenKey.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        corenlp
        CoreNlpCoreferenceResolverTest.java
        CoreNlpDependencyParserTest.java
        CoreNlpLemmatizerTest.java
        CoreNlpNamedEntityRecognizerTest.java
        CoreNlpParserTest.java
        CoreNlpPosTaggerTest.java
        CoreNlpSegmenterTest.java
- dkpro-core-decompounding-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        decompounding
        dictionary
        Dictionary.java
        German98Dictionary.java
        JWordSplitterDictionary.java
        LinkingMorphemes.java
        SimpleDictionary.java
        igerman98
        Affix.java
        AffixType.java
        package-info.java
        package-info.java
        ranking
        AbstractRanker.java
        CompoundProbabilityRanker.java
        DummyRanker.java
        FrequencyGeometricMeanRanker.java
        MutualInformationRanker.java
        Ranker.java
        RankerList.java
        package-info.java
        splitter
        AsvToolboxSplitterAlgorithm.java
        BananaSplitterAlgorithm.java
        DataDrivenSplitterAlgorithm.java
        DecompoundedWord.java
        DecompoundingTree.java
        Fragment.java
        JWordSplitterAlgorithm.java
        LeftToRightSplitterAlgorithm.java
        SplitterAlgorithm.java
        package-info.java
        trie
        KeyValueNode.java
        TrieStructure.java
        ValueNode.java
        package-info.java
        uima
        annotator
        CompoundAnnotator.java
        package-info.java
        resource
        AsvToolboxSplitterResource.java
        BananaSplitterResource.java
        DataDrivenSplitterResource.java
        FrequencyRankerResource.java
        JWordSplitterResource.java
        LeftToRightSplitterResource.java
        MutualInformationRankerResource.java
        ProbabilityRankerResource.java
        RankerResource.java
        SharedDictionary.java
        SharedFinder.java
        SharedLinkingMorphemes.java
        SharedPatriciaTries.java
        SplitterResource.java
        package-info.java
        web1t
        Finder.java
        LuceneIndexer.java
        NGramModel.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        decompounding
        dictionary
        German98DictionaryTest.java
        LinkingMorphemesTest.java
        SimpleDictionaryTest.java
        ranking
        DummyRankerTest.java
        FrequencyBasedTest.java
        MutualInformationBasedTest.java
        ProbabilityBasedTest.java
        splitter
        BananaSplitterTest.java
        DataDrivenAlgorithmTest.java
        DecompoundedWordTest.java
        FragmentTest.java
        JWordSplitterTest.java
        LeftToRightSplitAlgorithmTest.java
        trie
        TreeNodeTest.java
        TrieTest.java
        uima
        annotator
        CompoundAnnotatorTest.java
        web1t
        FinderPerformanceTest.java
        FinderTest.java
        LuceneIndexerTest.java
- dkpro-core-dictionaryannotator-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        dictionaryannotator
        DictionaryAnnotator.java
        PhraseTree.java
        PhraseTreeElement.java
        package-info.java
        semantictagging
        SemanticFieldAnnotator.java
        SemanticTagProvider.java
        SemanticTagResource.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        dictionaryannotator
        DictionaryAnnotatorTest.java
        PhraseTreeTest.java
        semantictagging
        SemanticFieldAnnotatorTest.java
- dkpro-core-eval-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        eval
        EvalUtil.java
        measure
        FMeasure.java
        model
        Span.java
        report
        Result.java
- dkpro-core-flextag-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        flextag
        FlexTagPosTagger.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        flextag
        FlexTagPosTaggerTest.java
- dkpro-core-frequency-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        frequency
        BerkeleyLmProvider.java
        Web1TFileAccessProvider.java
        Web1TInMemoryProvider.java
        Web1TProviderBase.java
        phrasedetection
        FrequencyCounter.java
        PhraseAnnotator.java
        resources
        BerkeleyLmFrequencyCountProvider.java
        Web1TFrequencyCountResource.java
        Web1TInMemoryFrequencyCountResource.java
        tfidf
        TfidfAnnotator.java
        TfidfConsumer.java
        model
        DfModel.java
        DfStore.java
        SharedDfModel.java
        util
        FreqDist.java
        TermIterator.java
        TfidfUtils.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        frequency
        BerkeleyLmProviderTest.java
        Web1TFrequencyProviderTest.java
        Web1TInMemoryFrequencyProviderTest.java
        berkeleylm
        CreateBerkelelyLmTestBinary.java
        CreateBerkeleyLmGoogleBinary.java
        phrasedetection
        FrequencyCounterTest.java
        PhraseAnnotatorTest.java
        resources
        BerkeleyLmFrequencyCountProviderTest.java
        Web1tInMemoryResourceTest.java
        Web1tResourceTest.java
        tfidf
        TfidfAnnotatorTest.java
        TfidfConsumerTest.java
        util
        CreateTestIndexesWeb1T.java
- dkpro-core-fs-hdfs-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        fs
        hdfs
        HdfsResourceLoaderLocator.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        fs
        hdfs
        HdfsResourceLoaderLocatorTest.java
- dkpro-core-gate-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        gate
        GateLemmatizer.java
        HepplePosTagger.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        gate
        GateLemmatizerTest.java
        HepplePosTaggerTest.java
- dkpro-core-gosen-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        gosen
        GosenSegmenter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        gosen
        GosenSegmenterTest.java
- dkpro-core-hunpos-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        hunpos
        HunPosTagger.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        hunpos
        HunPosTaggerTest.java
- dkpro-core-icu-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        icu
        IcuSegmenter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        icu
        IcuSegmenterTest.java
- dkpro-core-io-aclanthology-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        aclanthology
        AclAnthologyReader.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        aclanthology
        AclArcReaderTest.java
- dkpro-core-io-ancora-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        ancora
        AncoraReader.java
        internal
        AncoraConstants.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        ancora
        AncoraReaderTest.java
- dkpro-core-io-annis-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        annis
        RelAnnisWriter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        annis
        RelAnnisWriterTest.java
- dkpro-core-io-bincas-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        bincas
        BinaryCasReader.java
        BinaryCasWriter.java
        SerializedCasReader.java
        SerializedCasWriter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        bincas
        BinaryCasWriterReaderTest.java
        SerializedCasWriterReaderTest.java
- dkpro-core-io-bliki-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        bliki
        BlikiWikipediaReader.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        bliki
        BlikiWikipediaReaderTest.java
- dkpro-core-io-bnc-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        bnc
        BncReader.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        bnc
        BncReaderTest.java
- dkpro-core-io-brat-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        brat
        BratReader.java
        BratWriter.java
        internal
        model
        BratAnnotation.java
        BratAnnotationDecl.java
        BratAnnotationDocument.java
        BratAttribute.java
        BratAttributeDecl.java
        BratAttributeDrawingDecl.java
        BratConfiguration.java
        BratConstants.java
        BratDrawingDecl.java
        BratEventAnnotation.java
        BratEventAnnotationDecl.java
        BratEventArgument.java
        BratEventArgumentDecl.java
        BratLabelDecl.java
        BratRelationAnnotation.java
        BratRelationAnnotationDecl.java
        BratTextAnnotation.java
        BratTextAnnotationDecl.java
        BratTextAnnotationDrawingDecl.java
        EventParam.java
        MappingParam.java
        RelationParam.java
        TextAnnotationParam.java
        TypeMapping.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        brat
        BratReaderWriterTest.java
        internal
        model
        BratAttributeTest.java
        BratRelationAnnotationTest.java
        BratTextAnnotationTest.java
- dkpro-core-io-combination-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        combination
        CombinationReader.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        combination
        CombinationReaderTest.java
- dkpro-core-io-conll-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        conll
        Conll2000Reader.java
        Conll2000Writer.java
        Conll2002Reader.java
        Conll2002Writer.java
        Conll2003Reader.java
        Conll2003Writer.java
        Conll2006Reader.java
        Conll2006Writer.java
        Conll2008Reader.java
        Conll2008Writer.java
        Conll2009Reader.java
        Conll2009Writer.java
        Conll2012Reader.java
        Conll2012Writer.java
        ConllUReader.java
        ConllUWriter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        conll
        Conll2000ReaderTest.java
        Conll2000ReaderWriterTest.java
        Conll2002ReaderWriterTest.java
        Conll2003ReaderWriterTest.java
        Conll2006ReaderWriterTest.java
        Conll2008ReaderWriterTest.java
        Conll2009ReaderWriterTest.java
        Conll2012ReaderWriterTest.java
        ConllUReaderTest.java
        ConllUReaderWriterTest.java
- dkpro-core-io-ditop-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        ditop
        DiTopWriter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        ditop
        DiTopWriterTest.java
- dkpro-core-io-fangorn-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        fangorn
        FangornWriter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        fangorn
        FangornWriterTest.java
- dkpro-core-io-gate-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        gate
        GateXmlReader.java
        GateXmlWriter.java
        GateXmlWriter2.java
        internal
        DKPro2Gate.java
        Gate2DKPro.java
        GateAnnieConstants.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        gate
        GateXmlWriterTest.java
        GateXmlWriterTest2.java
- dkpro-core-io-graf-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        graf
        GrafReader.java
        GrafWriter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        graf
        GrafReaderWriterTest.java
        GrafWriterTest.java
- dkpro-core-io-html-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        html
        HtmlReader.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        html
        HtmlReaderTest.java
- dkpro-core-io-imscwb-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        imscwb
        ImsCwbReader.java
        ImsCwbWriter.java
        package-info.java
        util
        CorpusSentence.java
        CorpusText.java
        TabTokenizer.java
        TextIterable.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        imscwb
        ImsCwbReaderTest.java
        ImsCwbReaderWriterTest.java
        ImsCwbWriterTest.java
        TuebadzToImsCwbPipeline.java
- dkpro-core-io-jdbc-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        jdbc
        JdbcReader.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        jdbc
        JdbcReaderExample.java
- dkpro-core-io-json-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        json
        JsonWriter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        json
        JsonWriterTest.java
- dkpro-core-io-jwpl-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        jwpl
        WikipediaArticleInfoReader.java
        WikipediaArticleReader.java
        WikipediaDiscussionReader.java
        WikipediaLinkReader.java
        WikipediaPageReader.java
        WikipediaQueryReader.java
        WikipediaReaderBase.java
        WikipediaRevisionPairReader.java
        WikipediaRevisionReader.java
        WikipediaRevisionReaderBase.java
        WikipediaStandardReaderBase.java
        WikipediaTemplateFilteredArticleReader.java
        package-info.java
        util
        WikiUtils.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        jwpl
        WikipediaArticleReaderTest.java
        WikipediaLinkReaderTest.java
        WikipediaQueryReaderTest.java
        WikipediaRevisionPairReaderTest.java
        WikipediaRevisionReaderTest.java
- dkpro-core-io-lif-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        lif
        LifReader.java
        LifWriter.java
        internal
        DKPro2Lif.java
        Lif2DKPro.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        lif
        LifReaderWriterTest.java
        LifWriterTest.java
- dkpro-core-io-lxf-asl
  - src
    - main
      - java
        org
        dkpro
        core
        io
        lxf
        LxfReader.java
        LxfWriter.java
        internal
        DKPro2Lxf.java
        Lxf2DKPro.java
        NodeIterator.java
        ToolGeneratorIndex.java
        model
        LxfAnnotatedObject.java
        LxfEdge.java
        LxfGraph.java
        LxfNode.java
        LxfObject.java
        LxfRegion.java
        LxfText.java
        LxfVocabulary.java
    - test
      - java
        org
        dkpro
        core
        io
        lxf
        LxfConverterTest.java
        LxfReaderTest.java
        LxfReaderWriterDeltaTest.java
        LxfReaderWriterTest.java
- dkpro-core-io-negra-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        negra
        NegraExportReader.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        negra
        NegraExportReaderTest.java
- dkpro-core-io-nif-asl
  - src
    - main
      - java
        org
        dkpro
        core
        io
        nif
        NifReader.java
        NifWriter.java
        internal
        DKPro2Nif.java
        ITS.java
        NIF.java
        Nif2DKPro.java
    - test
      - java
        org
        dkpro
        core
        io
        nif
        NifReaderTest.java
        NifReaderWriterTest.java
- dkpro-core-io-pdf-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        pdf
        Buckets.java
        Pdf2CasConverter.java
        PdfLayoutEventStripper.java
        PdfReader.java
        SubstitutionTrieParser.java
        Trie.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        pdf
        PdfReaderTest.java
- dkpro-core-io-penntree-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        penntree
        PennTreeNode.java
        PennTreeToJCasConverter.java
        PennTreeUtils.java
        PennTreebankChunkedReader.java
        PennTreebankCombinedReader.java
        PennTreebankCombinedWriter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        penntree
        PennTreeToJCasConverterTest.java
        PennTreeUtilsTest.java
        PennTreebankChunkedReaderTest.java
        PennTreebankCombinedReaderTest.java
        PennTreebankCombinedReaderWriterTest.java
- dkpro-core-io-rdf-asl
  - src
    - main
      - java
        org
        dkpro
        core
        io
        rdf
        RdfReader.java
        RdfWriter.java
        internal
        Rdf2Uima.java
        RdfCas.java
        Uima2Rdf.java
    - test
      - java
        org
        dkpro
        core
        io
        rdf
        RdfWriterTest.java
- dkpro-core-io-reuters-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        reuters
        ExtractReuters.java
        Reuters21578SgmlReader.java
        Reuters21578TxtReader.java
        ReutersDocument.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        reuters
        ExtractReutersTest.java
        Reuters21578SgmlReaderTest.java
        Reuters21578TxtReaderTest.java
        ReutersDocumentTests.java
- dkpro-core-io-rtf-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        rtf
        RTFReader.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        rtf
        RTFReaderTest.java
- dkpro-core-io-solr-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        solr
        SolrWriter.java
        SolrWriter_ImplBase.java
        util
        SolrUtils.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        solr
        SolrWriterTest.java
        util
        SolrUtilsTest.java
- dkpro-core-io-tcf-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tcf
        TcfReader.java
        TcfWriter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tcf
        TcfReaderTest.java
        TcfReaderWriterTest.java
        TcfWriterTest.java
- dkpro-core-io-tei-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tei
        TeiReader.java
        TeiWriter.java
        internal
        TeiConstants.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tei
        TeiReaderTest.java
        TeiReaderWriterTest.java
        TeiWriterTest.java
- dkpro-core-io-text-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        text
        StringReader.java
        TextReader.java
        TextWriter.java
        TokenizedTextWriter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        text
        TextReaderTest.java
        TextWriterTest.java
        TokenizedTextWriterTest.java
- dkpro-core-io-tgrep-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tgrep
        TGrepWriter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tgrep
        TGrepWriterTest.java
- dkpro-core-io-tiger-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tiger
        TigerXmlReader.java
        TigerXmlWriter.java
        internal
        IllegalAnnotationStructureException.java
        model
        AnnotationDecl.java
        EdgeLabelDecl.java
        FeatureDecl.java
        Meta.java
        TigerEdge.java
        TigerFeNode.java
        TigerFrame.java
        TigerFrameElement.java
        TigerGraph.java
        TigerNode.java
        TigerNonTerminal.java
        TigerPart.java
        TigerSem.java
        TigerSentence.java
        TigerSplitword.java
        TigerTarget.java
        TigerTerminal.java
        ValueDecl.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tiger
        TigerXmlReaderTest.java
        TigerXmlReaderWriterTest.java
        TigerXmlWriterTest.java
- dkpro-core-io-tika-asl
  - src
    - main
      - java
        org
        dkpro
        core
        io
        tika
        TikaReader.java
    - test
      - java
        org
        dkpro
        core
        io
        tika
        TikaReaderTest.java
- dkpro-core-io-tuebadz-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tuebadz
        TuebaDZReader.java
        package-info.java
- dkpro-core-io-tuepp-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        tuepp
        TueppReader.java
        internal
        model
        TueppBaseform.java
        TueppPos.java
        TueppToken.java
        package-info.java
- dkpro-core-io-web1t-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        web1t
        Web1TWriter.java
        package-info.java
        util
        ExternalSort.java
        Web1TConverter.java
        Web1TFileConsolidator.java
        Web1TFileSorter.java
        Web1TFileSplitter.java
        Web1TUtil.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        web1t
        PipelineExample.java
        TestCreatedIndex.java
        Web1TConsolidatorTest.java
        Web1TSorterTest.java
        Web1TSplitterTest.java
        Web1TWriterTest.java
- dkpro-core-io-xces-asl
  - src
    - main
      - java
        org
        dkpro
        core
        io
        xces
        XcesBasicXmlReader.java
        XcesBasicXmlWriter.java
        XcesXmlReader.java
        XcesXmlWriter.java
        models
        XcesBody.java
        XcesBodyBasic.java
        XcesPara.java
        XcesParaBasic.java
        XcesSentence.java
        XcesToken.java
        package-info.java
    - test
      - java
        org
        dkpro
        core
        io
        xces
        XcesXmlReaderTest.java
        XcesXmlReaderWriterTest.java
- dkpro-core-io-xmi-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        xmi
        XmiReader.java
        XmiWriter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        xmi
        XmiReaderWriterTest.java
        XmiWriterReaderTest.java
- dkpro-core-io-xml-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        xml
        InlineXmlWriter.java
        XmlReader.java
        XmlTextReader.java
        XmlXPathReader.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        io
        xml
        InlineXmlWriterTest.java
        XPathXmlReaderFeatureTest.java
        XPathXmlReaderIdValidationTest.java
- dkpro-core-ixa-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        ixa
        IxaLemmatizer.java
        IxaPosTagger.java
        internal
        IxaLemmatizerTagsetDescriptionProvider.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        ixa
        IxaLemmatizerTest.java
        IxaPosTaggerTest.java
- dkpro-core-jazzy-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        jazzy
        CorrectionsContextualizer.java
        JazzyChecker.java
        package-info.java
        util
        ContextualizerUtils.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        jazzy
        JazzyCheckerTest.java
- dkpro-core-jtok-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        jtok
        JTokSegmenter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        jtok
        JTokSegmenterTest.java
- dkpro-core-kuromoji-asl
  - src
    - main
      - java
        org
        dkpro
        core
        kuromoji
        KuromojiSegmenter.java
    - test
      - java
        org
        dkpro
        core
        kuromoji
        KuromojiSegmenterTest.java
- dkpro-core-lancaster-asl
  - src
    - main
      - java
        org
        dkpro
        core
        lancaster
        LancasterStemmer.java
        package-info.java
    - test
      - java
        org
        dkpro
        core
        lancaster
        LancasterStemmerTest.java
- dkpro-core-langdetect-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        langdetect
        LangDetectLanguageIdentifier.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        langdetect
        LangDetectLanguageIdentifierTest.java
- dkpro-core-languagetool-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        languagetool
        CjfNormalizer.java
        LanguageToolChecker.java
        LanguageToolLemmatizer.java
        LanguageToolSegmenter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        languagetool
        CjfNormalizerTest.java
        LanguageToolCheckerTest.java
        LanguageToolLemmatizerTest.java
        LanguageToolSegmenterTest.java
- dkpro-core-lbj-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        lbj
        IllinoisChunker.java
        IllinoisLemmatizer.java
        IllinoisNamedEntityRecognizer.java
        IllinoisPosTagger.java
        IllinoisSegmenter.java
        IllinoisStatefulSegmenter.java
        internal
        ConvertToIllinois.java
        ConvertToUima.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        lbj
        IllinoisChunkerTest.java
        IllinoisLemmatizerTest.java
        IllinoisNamedEntityRecognizerTest.java
        IllinoisPosTaggerTest.java
        IllinoisSegmenterTest.java
        IllinoisStatefulSegmenterTest.java
- dkpro-core-ldweb1t-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        ldweb1t
        LanguageDetectorWeb1T.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        ldweb1t
        LanguageDetectorWeb1TTest.java
- dkpro-core-lingpipe-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        lingpipe
        LingPipeNamedEntityRecognizer.java
        LingPipePosTagger.java
        LingPipeSegmenter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        lingpipe
        LingPipeNamedEntityRecognizerTest.java
        LingPipePosTaggerTest.java
        LingPipeSegmenterTest.java
- dkpro-core-mallet-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        mallet
        MalletModelTrainer.java
        lda
        MalletLdaTopicModelInferencer.java
        MalletLdaTopicModelTrainer.java
        MalletLdaTopicModelUtils.java
        io
        MalletLdaTopicProportionsWriter.java
        MalletLdaTopicsProportionsSortedWriter.java
        util
        PrintTopWords.java
        PrintTopicWordWeights.java
        wordembeddings
        MalletEmbeddingsAnnotator.java
        MalletEmbeddingsTrainer.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        mallet
        lda
        MalletLdaTopicModelInferencerTest.java
        MalletLdaTopicModelTrainerTest.java
        MalletLdaTopicModelUtilsTest.java
        MalletLdaUtil.java
        io
        MalletLdaTopicProportionsWriterTest.java
        MalletLdaTopicsProportionsSortedWriterTest.java
        wordembeddings
        MalletEmbeddingsAnnotatorTest.java
        MalletEmbeddingsTrainerTest.java
- dkpro-core-maltparser-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        maltparser
        MaltParser.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        maltparser
        MaltParserTest.java
- dkpro-core-matetools-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        matetools
        MateLemmatizer.java
        MateMorphTagger.java
        MateParser.java
        MatePosTagger.java
        MateSemanticRoleLabeler.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        matetools
        MateLemmatizerTest.java
        MateMorphTaggerTest.java
        MateParserTest.java
        MatePosTaggerTest.java
        MateSemanticRoleLabelerTest.java
- dkpro-core-mecab-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        mecab
        MeCabTagger.java
        package-info.java
        type
        JapaneseToken.java
        JapaneseToken_Type.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        mecab
        MeCabTaggerDetailedTest.java
        MeCabTaggerTest.java
        MeCabWhiteSpacesTest.java
- dkpro-core-morpha-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        morpha
        MorphaLemmatizer.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        morpha
        MorphaLemmatizerTest.java
- dkpro-core-mstparser-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        mstparser
        MstParser.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        mstparser
        MstParserTest.java
- dkpro-core-ngrams-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        ngrams
        NGramAnnotator.java
        NGramIterable.java
        package-info.java
        util
        CharacterNGramStringIterable.java
        NGramStringIterable.java
        NGramStringListIterable.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        ngrams
        NGramAnnotatorTest.java
        util
        CharacterNGramStringIterableTest.java
        NGramStringIterableTest.java
        NGramStringListIterableTest.java
- dkpro-core-nlp4j-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        nlp4j
        Nlp4JDependencyParser.java
        Nlp4JLemmatizer.java
        Nlp4JNamedEntityRecognizer.java
        Nlp4JPosTagger.java
        Nlp4JSegmenter.java
        internal
        EmoryNlp2Uima.java
        EmoryNlpUtils.java
        OnlineComponentTagsetDescriptionProvider.java
        Uima2EmoryNlp.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        nlp4j
        EnglishTokenizerTest.java
        Nlp4JDependencyParserTest.java
        Nlp4JLemmatizerTest.java
        Nlp4JNamedEntityRecognizerTest.java
        Nlp4JPosTaggerTest.java
        Nlp4JSegmenterTest.java
- dkpro-core-norvig-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        norvig
        NorvigSpellingAlgorithm.java
        NorvigSpellingCorrector.java
        package-info.java
- dkpro-core-opennlp-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        opennlp
        OpenNlpChunker.java
        OpenNlpChunkerTrainer.java
        OpenNlpLemmatizer.java
        OpenNlpLemmatizerTrainer.java
        OpenNlpNamedEntityRecognizer.java
        OpenNlpNamedEntityRecognizerTrainer.java
        OpenNlpParser.java
        OpenNlpPosTagger.java
        OpenNlpPosTaggerTrainer.java
        OpenNlpSegmenter.java
        OpenNlpSentenceTrainer.java
        OpenNlpTokenTrainer.java
        internal
        CasChunkSampleStream.java
        CasLemmaSampleStream.java
        CasNameSampleStream.java
        CasPosSampleStream.java
        CasSampleStreamBase.java
        CasSentenceSampleStream.java
        CasTokenSampleStream.java
        OpenNlpChunkerTagsetDescriptionProvider.java
        OpenNlpParserTagsetDescriptionProvider.java
        OpenNlpSequenceTagsetDescriptionProvider.java
        OpenNlpTagsetDescriptionProvider.java
        OpenNlpTrainerBase.java
        package-info.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        opennlp
        OpenNlpChunkerTest.java
        OpenNlpChunkerTrainerTest.java
        OpenNlpLemmatizerTrainerTest.java
        OpenNlpNamedEntityRecognizerTest.java
        OpenNlpNamedEntityRecognizerTrainerTest.java
        OpenNlpParserTest.java
        OpenNlpPosTaggerTest.java
        OpenNlpPosTaggerTrainerTest.java
        OpenNlpSegmenterTest.java
        OpenNlpSentenceTrainerTest.java
        OpenNlpTokenTrainerTest.java
- dkpro-core-performance-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        performance
        PerformanceTestUtil.java
        Stopwatch.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        performance
        OpenNlpPosTaggerTest.java
- dkpro-core-posfilter-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        posfilter
        PosFilter.java
        PosMapper.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        posfilter
        PosFilterTest.java
        PosMapperTest.java
- dkpro-core-readability-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        readability
        ReadabilityAnnotator.java
        measure
        ReadabilityMeasures.java
        WordSyllableCounter.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        readability
        ReadabilityAnnotatorTest.java
        ReadabilityMeasuresTest.java
        WordSyllableCounterTest.java
- dkpro-core-rftagger-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        rftagger
        RfTagger.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        rftagger
        RfTaggerTest.java
- dkpro-core-sfst-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        sfst
        SfstAnnotator.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        sfst
        SfstAnnotatorTest.java
- dkpro-core-snowball-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        snowball
        SnowballStemmer.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        snowball
        SnowballStemmerTest.java
- dkpro-core-stanfordnlp-gpl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        stanfordnlp
        StanfordCoreferenceResolver.java
        StanfordDependencyConverter.java
        StanfordLemmatizer.java
        StanfordNamedEntityRecognizer.java
        StanfordNamedEntityRecognizerTrainer.java
        StanfordParser.java
        StanfordPosTagger.java
        StanfordPosTaggerTrainer.java
        StanfordPtbTransformer.java
        StanfordSegmenter.java
        StanfordSentimentAnalyzer.java
        internal
        RootKey.java
        TokenKey.java
        package-info.java
        util
        CasCopier.java
        CoreNlpUtils.java
        StanfordAnnotator.java
        TreeUtils.java
        TreeWithTokens.java
        UIMAAnnotations.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        stanfordnlp
        ReuseTest.java
        StanfordCoreferenceResolverTest.java
        StanfordDependencyConverterTest.java
        StanfordLemmatizerTest.java
        StanfordNamedEntityRecognizerTest.java
        StanfordNamedEntityRecognizerTrainerTest.java
        StanfordParserTest.java
        StanfordPosTaggerTest.java
        StanfordPosTaggerTrainerTest.java
        StanfordPtbTransformerTest.java
        StanfordSegmenterTest.java
        StanfordSentimentAnalyzerTest.java
- dkpro-core-stopwordremover-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        stopwordremover
        StopWordRemover.java
        StopWordSet.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        stopwordremover
        StopWordRemoverTest.java
- dkpro-core-testing-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        testing
        AssertAnnotations.java
        AssumeResource.java
        DkproTestContext.java
        DocumentMetaDataStripper.java
        IOTestRunner.java
        TagsetDescriptionStripper.java
        TestOptions.java
        TestRunner.java
        dumper
        CasDumpWriter.java
        DependencyDumper.java
        harness
        SegmenterHarness.java
        validation
        CasAnalysisUtils.java
        CasValidator.java
        CasValidatorComponent.java
        Message.java
        checks
        AllAnnotationsIndexedCheck.java
        BasicDependenciesFormATreeCheck.java
        Check.java
        DependencyRootSelfLoopCheck.java
        DependencyRootTypeCheck.java
        LemmaAttachedToTokenCheck.java
        MorphologicalFeaturesAttachedToTokenCheck.java
        NoZeroSizeTokensAndSentencesCheck.java
        ParentSetCheck.java
        PosAttachedToTokenCheck.java
        StemAttachedToTokenCheck.java
        TokenAttributeAttachedToTokenCheck_ImplBase.java
        extras
        AllTokensHavePos.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        testing
        AssertAnnotationsTest.java
        validation
        checks
        NoZeroSizeTokenAndSentenceCheckTest.java
        PosAttachedToTokenCheckTest.java
- dkpro-core-textcat-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        textcat
        LanguageIdentifier.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        textcat
        LanguageIdentifierTest.java
- dkpro-core-textnormalizer-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        textnormalizer
        Normalizer_ImplBase.java
        ReplacementFileNormalizer.java
        SpellingNormalizer.java
        annotations
        AnnotationByTextFilter.java
        RegexTokenFilter.java
        TrailingCharacterRemover.java
        casfilter
        CasFilter_ImplBase.java
        factory
        NormalizerFactory.java
        frequency
        CapitalizationNormalizer.java
        ExpressiveLengtheningNormalizer.java
        ReplacementFrequencyNormalizer_ImplBase.java
        SharpSNormalizer.java
        UmlautNormalizer.java
        internal
        AnnotationComparator.java
        transformation
        DictionaryBasedTokenTransformer.java
        FileBasedTokenTransformer.java
        HyphenationRemover.java
        RegexBasedTokenTransformer.java
        TokenCaseTransformer.java
        util
        CreateNormalizerModel.java
        JCasHolder.java
        NormalizationUtils.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        textnormalizer
        JWeb1TFrequencyProviderTest.java
        MultiNormalizationTest.java
        ReplacementFileNormalizerTest.java
        SpellingNormalizerTest.java
        annotations
        AnnotationByTextFilterTest.java
        RegexTokenFilterTest.java
        TrailingCharacterRemoverTest.java
        casfilter
        CasFilter_ImplBaseTest.java
        factory
        NormalizerFactoryTest.java
        frequency
        CapitalizationNormalizerTest.java
        ExpressiveLengtheningNormalizerTest.java
        SharpSNormalizerTest.java
        UmlautNormalizerTest.java
        transformation
        DictionaryBasedTokenTransformerTest.java
        FileBasedTokenTransformerTest.java
        HyphenationRemoverTest.java
        JCasTransformerChangeBased_ImplBaseTest.java
        JCasTransformer_ImplBaseTest.java
        RegexBasedTokenTransformerTest.java
        TokenCaseTransformerTest.java
- dkpro-core-tokit-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        tokit
        AnnotationByLengthFilter.java
        BreakIteratorSegmenter.java
        CamelCaseTokenSegmenter.java
        GermanSeparatedParticleAnnotator.java
        LineBasedSentenceSegmenter.java
        ParagraphSplitter.java
        PatternBasedTokenSegmenter.java
        RegexSegmenter.java
        TokenMerger.java
        TokenTrimmer.java
        WhitespaceSegmenter.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        tokit
        AnnotationByLengthFilterTest.java
        BreakIteratorSegmenterTest.java
        CamelCaseSegmenterTest.java
        GermanSeparatedParticleAnnotatorTest.java
        LineBasedSentenceSegmenterTest.java
        ParagraphSplitterTest.java
        PatternBasedTokenSegmenterTest.java
        RegexSegmenterTest.java
        TokenMergerTest.java
        WhitespaceSegmenterTest.java
- dkpro-core-treetagger-asl
  - src
    - main
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        treetagger
        TreeTaggerChunker.java
        TreeTaggerPosTagger.java
        internal
        DKProExecutableResolver.java
        package-info.java
    - test
      - java
        de
        tudarmstadt
        ukp
        dkpro
        core
        treetagger
        SegmenterCompatibilityTest.java
        TreeTaggerChunkerTest.java
        TreeTaggerPosTaggerTest.java
- dkpro-core-udpipe-asl
  - src
    - main
      - java
        org
        dkpro
        core
        udpipe
        UDPipeParser.java
        UDPipePosTagger.java
        UDPipeSegmenter.java
        internal
        DKPro2UDPipe.java
        UDPipe2DKPro.java
        UDPipeUtils.java
    - test
      - java
        org
        dkpro
        core
        udpipe
        UDPipeParserTest.java
        UDPipePosTaggerTest.java
        UDPipeSegmenterTest.java

/*
 * Copyright 2010
 * Ubiquitous Knowledge Processing (UKP) Lab
 * Technische Universität Darmstadt
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *   http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 *
 * This code is based on the PDFTextStripper written by Ben Litchfield from
 * the PDFbox 0.7.x project and licensed under the BSD license. In accordance
 * with the terms of this license, the following copyright statement is retained:
 *
 * Copyright (c) 2003-2007, www.pdfbox.org
 * All rights reserved.
 *
 * Furthermore the modified code is re-licensed under the Apache License,
 * Version 2.0 as stated above.
 */
package de.tudarmstadt.ukp.dkpro.core.io.pdf;

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Properties;
import java.util.Vector;

import org.apache.pdfbox.cos.COSStream;
import org.apache.pdfbox.exceptions.CryptographyException;
import org.apache.pdfbox.exceptions.InvalidPasswordException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.common.PDRectangle;
import org.apache.pdfbox.pdmodel.common.PDStream;
import org.apache.pdfbox.pdmodel.interactive.pagenavigation.PDThreadBead;
import org.apache.pdfbox.util.PDFStreamEngine;
import org.apache.pdfbox.util.ResourceLoader;
import org.apache.pdfbox.util.TextPosition;

/**
 * This class will take a PDF document and strip out all of the text and ignore the formatting and
 * such. Please note; it is up to clients of this class to verify that a specific user has the
 * correct permissions to extract text from the PDF document.
 * <p>
 * This class is based on the pdfbox 1.7.0 PDFTextStripper class and was substantially modified and
 * enhanced for basic paragraph and heading detection. Unfortunately it was not possible to add
 * these enhancements through sub-classing, thus the code was copied and adapted.
 */
public abstract class PdfLayoutEventStripper
    extends PDFStreamEngine
{
    public static enum Values
    {
        LEFT, RIGHT, TOP, BOTTOM, LINESPACING, LINEHEIGHT
    }

    public static enum Style
    {
        PAGE, PARAGRAPH, HEADING
    }

    private PDDocument document;

    private int currentPageNo = 0;
    private int startPage = 1;
    private int maxPage = 0;
    private int endPage = Integer.MAX_VALUE;
    private boolean suppressDuplicateOverlappingText = true;
    private boolean shouldSeparateByBeads = true;

    private List<PDThreadBead> pageArticles = null;
    /**
     * The charactersByArticle is used to extract text by article divisions. For example a PDF that
     * has two columns like a newspaper, we want to extract the first column and then the second
     * column. In this example the PDF would have 2 beads(or articles), one for each column. The
     * size of the charactersByArticle would be 5, because not all text on the screen will fall into
     * one of the articles. The five divisions are shown below
     * 
     * Text before first article first article text text between first article and second article
     * second article text text after second article
     * 
     * Most PDFs won't have any beads, so charactersByArticle will contain a single entry.
     */
    protected Vector<List<TextPosition>> charactersByArticle = new Vector<List<TextPosition>>();

    private final Map<String, List<TextPosition>> characterListMapping = new HashMap<String, List<TextPosition>>();

    /**
     * Instantiate a new PDFTextStripper object. This object will load properties from
     * Resources/PDFTextStripper.properties.
     * 
     * @throws IOException
     *             If there is an error loading the properties.
     */
    public PdfLayoutEventStripper()
        throws IOException
    {
        super(ResourceLoader.loadProperties(
                "org/apache/pdfbox/resources/PDFTextStripper.properties", true));
    }

    /**
     * Instantiate a new PDFTextStripper object. Loading all of the operator mappings from the
     * properties object that is passed in.
     * 
     * @param props
     *            The properties containing the mapping of operators to PDFOperator classes.
     * 
     * @throws IOException
     *             If there is an error reading the properties.
     */
    public PdfLayoutEventStripper(final Properties props)
        throws IOException
    {
        super(props);
    }

    /**
     * This will take a PDDocument and write the text of that document to the print writer.
     * 
     * @param doc
     *            The document to get the data from.
     * 
     * @throws IOException
     *             If the doc is in an invalid state.
     */
    public void writeText(final PDDocument doc)
        throws IOException
    {
        resetEngine();

        currentPageNo = 0;
        document = doc;
        startDocument(document);

        if (document.isEncrypted()) {
            // We are expecting non-encrypted documents here, but it is common
            // for users to pass in a document that is encrypted with an empty
            // password (such a document appears to not be encrypted by
            // someone viewing the document, thus the confusion). We will
            // attempt to decrypt with the empty password to handle this case.
            //
            try {
                document.decrypt("");
            }
            catch (CryptographyException e) {
                throw new IOException("Error decrypting document, details: ", e);
            }
            catch (InvalidPasswordException e) {
                throw new IOException("Error: document is encrypted", e);
            }
        }

        processPages(document.getDocumentCatalog().getAllPages());
        endDocument(document);
    }

    /**
     * This will process all of the pages and the text that is in them.
     * 
     * @param pages
     *            The pages object in the document.
     * 
     * @throws IOException
     *             If there is an error parsing the text.
     */
    protected void processPages(List<PDPage> pages)
        throws IOException
    {
        maxPage = pages.size();

        for (final PDPage page : pages) {
            currentPageNo++;
            final PDStream contentStream = page.getContents();
            if (contentStream != null) {
                final COSStream contents = contentStream.getStream();
                processPage(page, contents);
            }
        }
    }

    /**
     * This will process the contents of a page.
     * 
     * @param page
     *            The page to process.
     * @param content
     *            The contents of the page.
     * 
     * @throws IOException
     *             If there is an error processing the page.
     */
    protected void processPage(final PDPage page, final COSStream content)
        throws IOException
    {
        if ((currentPageNo >= startPage) && (currentPageNo <= endPage)) {
            startPage(startPage, Math.min(maxPage, endPage), currentPageNo, page);
            pageArticles = page.getThreadBeads();
            int numberOfArticleSections = 1 + pageArticles.size() * 2;
            if (!shouldSeparateByBeads) {
                numberOfArticleSections = 1;
            }
            final int originalSize = charactersByArticle.size();
            charactersByArticle.setSize(numberOfArticleSections);
            for (int i = 0; i < numberOfArticleSections; i++) {
                if (numberOfArticleSections < originalSize) {
                    charactersByArticle.get(i).clear();
                }
                else {
                    charactersByArticle.set(i, new ArrayList<TextPosition>());
                }
            }

            characterListMapping.clear();

            // processStream will call showCharacter were we will simply
            // collect all the TextPositions for the page
            processStream(page, page.findResources(), content);

            // Now we do the real processing
            for (int i = 0; i < charactersByArticle.size(); i++) {
                processArticle(charactersByArticle.get(i));
            }

            endPage(startPage, endPage, currentPageNo, page);
        }
    }

    /**
     * This method tries do detect headings and paragraphs and line boundaries.
     * 
     * @param textList
     *            the text.
     * @throws IOException
     *             if there is an error writing to the stream.
     */
    protected void processArticle(final List<TextPosition> textList)
        throws IOException
    {
        // Nothing to do in this article?
        if (textList.size() == 0) {
            return;
        }

        // System.out.println("XScale: "+textList.get(0).getXScale());
        // System.out.println("YScale: "+textList.get(0).getYScale());

        final int prediction_depth = 10;
        Prediction pred = null;
        final Block block = new Block(textList, 0);
        Line currentLine = null;

        boolean newRegion = false;
        Style currentStyle = null;
        Style prevStyle = null;
        int cur = 0;
        while (cur < textList.size()) {
            // Initialize the line (if not already done)
            if (currentLine == null) {
                currentLine = new Line(textList, cur);

                // Get the style for the line (base on style for current
                // element)
                prevStyle = currentStyle;
                currentStyle = getStyle(textList.get(cur));

                // Test for a style change
                if ((newRegion) || (prevStyle != currentStyle)) {
                    if (newRegion) {
                        newRegion = false;
                    }
                    // On a style change issue the proper events
                    if (prevStyle != null) {
                        endRegion(prevStyle);
                    }
                    startRegion(currentStyle);
                    pred = predictGeneralStructure(textList, cur, prediction_depth);
                }
            }

            // Check if we left the line
            if (!currentLine.withinLine(textList.get(cur))
                    && !currentLine.isSuperscript(textList.get(cur))
                    && !currentLine.isSubscript(textList.get(cur))) {
                // We left the line
                currentLine = null;

                // Check if we left the region
                final boolean columnSwitch = isColumnSwitch(textList.get(cur), block);
                final boolean leftIndented = isLeftIndented(textList.get(cur), pred);
                final boolean leftOutdented = isLeftOutdented(textList.get(cur), pred);
                // boolean fontSwitch = (fontSize[cur] != fontSize[cur-1]);
                final boolean vAdjacent = isVerticallyAdjacent(textList.get(cur).getY(), textList
                        .get(cur - 1).getY(), block.linespacing);

                if (!columnSwitch && !leftIndented && !leftOutdented &&
                /* !fontSwitch && */vAdjacent) {
                    // Same region. Issue a line separator and restart
                    processLineSeparator();
                }
                else {
                    // New region
                    newRegion = true;
                    block.reset(cur);

                    if ((pred == null) || !vAdjacent) {
                        pred = predictGeneralStructure(textList, cur, prediction_depth);
                    }
                    else if (vAdjacent) {
                        // If the block is directly adjacent, we may be better
                        // of
                        // with the old prediction... let's see if we can get a
                        // comparatively good new one.
                        final Prediction new_pred = predictGeneralStructure(textList, cur,
                                prediction_depth);
                        final boolean badPred = isSignifiantlyWorse(new_pred.quality, pred.quality,
                                0.4);
                        if (!badPred) {
                            pred = new_pred;
                        }
                    }
                }

                continue; // Start again to create a new currentLine
            }

            // Ok, we are in the same line still.

            // Let's check if the block is adjacent or needs a space
            // if (!isRightAdjacent(textList, cur, cur-1, cur-2)) {
            if ((cur > 0) && !isNextChar(textList.get(cur), textList.get(cur - 1))) {
                processWordSeparator();
            }

            // Grow the current block to calculate better spacings.
            block.grow(cur);

            // Write of the characters and advance.
            writeCharacters(textList.get(cur));
            cur++;
        }

        // Close region
        if (currentStyle != null) {
            endRegion(currentStyle);
        }
    }

    /**
     * This will show add a character to the list of characters to be printed to the text file.
     * 
     * @param text
     *            The description of the character to display.
     */
    @Override
    protected void processTextPosition(final TextPosition text)
    {
        boolean showCharacter = true;
        if (suppressDuplicateOverlappingText) {
            showCharacter = false;
            final String textCharacter = text.getCharacter();
            final float textX = text.getX();
            final float textY = text.getY();
            List<TextPosition> sameTextCharacters = characterListMapping.get(textCharacter);
            if (sameTextCharacters == null) {
                sameTextCharacters = new ArrayList<TextPosition>();
                characterListMapping.put(textCharacter, sameTextCharacters);
            }

            // RDD - Here we compute the value that represents the end of the
            // rendered
            // text. This value is used to determine whether subsequent text
            // rendered
            // on the same line overwrites the current text.
            //
            // We subtract any positive padding to handle cases where extreme
            // amounts
            // of padding are applied, then backed off (not sure why this is
            // done, but there
            // are cases where the padding is on the order of 10x the character
            // width, and
            // the TJ just backs up to compensate after each character). Also,
            // we subtract
            // an amount to allow for kerning (a percentage of the width of the
            // last
            // character).
            //
            boolean suppressCharacter = false;
            final float tolerance = (text.getWidth() / textCharacter.length()) / 3.0f;
            for (int i = 0; i < sameTextCharacters.size() && textCharacter != null; i++) {
                final TextPosition character = sameTextCharacters.get(i);
                final String charCharacter = character.getCharacter();
                final float charX = character.getX();
                final float charY = character.getY();
                // only want to suppress

                if (charCharacter != null &&
                // charCharacter.equals( textCharacter ) &&
                        within(charX, textX, tolerance) && within(charY, textY, tolerance)) {
                    suppressCharacter = true;
                }
            }
            if (!suppressCharacter && (text.getCharacter() != null)
                    && (text.getCharacter().length() > 0)) {
                sameTextCharacters.add(text);
                showCharacter = true;
            }
        }

        if (showCharacter) {
            // if we are showing the character then we need to determine which
            // article it belongs to.
            int foundArticleDivisionIndex = -1;
            int notFoundButFirstLeftAndAboveArticleDivisionIndex = -1;
            int notFoundButFirstLeftArticleDivisionIndex = -1;
            int notFoundButFirstAboveArticleDivisionIndex = -1;
            final float x = text.getX();
            final float y = text.getY();
            if (shouldSeparateByBeads) {
                for (int i = 0; i < pageArticles.size() && foundArticleDivisionIndex == -1; i++) {
                    final PDThreadBead bead = pageArticles.get(i);
                    if (bead != null) {
                        final PDRectangle rect = bead.getRectangle();
                        if (rect.contains(x, y)) {
                            foundArticleDivisionIndex = i * 2 + 1;
                        }
                        else if ((x < rect.getLowerLeftX() || y < rect.getUpperRightY())
                                && notFoundButFirstLeftAndAboveArticleDivisionIndex == -1) {
                            notFoundButFirstLeftAndAboveArticleDivisionIndex = i * 2;
                        }
                        else if (x < rect.getLowerLeftX()
                                && notFoundButFirstLeftArticleDivisionIndex == -1) {
                            notFoundButFirstLeftArticleDivisionIndex = i * 2;
                        }
                        else if (y < rect.getUpperRightY()
                                && notFoundButFirstAboveArticleDivisionIndex == -1) {
                            notFoundButFirstAboveArticleDivisionIndex = i * 2;
                        }
                    }
                    else {
                        foundArticleDivisionIndex = 0;
                    }
                }
            }
            else {
                foundArticleDivisionIndex = 0;
            }
            int articleDivisionIndex = -1;
            if (foundArticleDivisionIndex != -1) {
                articleDivisionIndex = foundArticleDivisionIndex;
            }
            else if (notFoundButFirstLeftAndAboveArticleDivisionIndex != -1) {
                articleDivisionIndex = notFoundButFirstLeftAndAboveArticleDivisionIndex;
            }
            else if (notFoundButFirstLeftArticleDivisionIndex != -1) {
                articleDivisionIndex = notFoundButFirstLeftArticleDivisionIndex;
            }
            else if (notFoundButFirstAboveArticleDivisionIndex != -1) {
                articleDivisionIndex = notFoundButFirstAboveArticleDivisionIndex;
            }
            else {
                articleDivisionIndex = charactersByArticle.size() - 1;
            }
            final List<TextPosition> textList = charactersByArticle.get(articleDivisionIndex);
            textList.add(text);
        }
    }

    /**
     * This will determine of two floating point numbers are within a specified variance.
     * 
     * @param first
     *            The first number to compare to.
     * @param second
     *            The second number to compare to.
     * @param variance
     *            The allowed variance.
     * @return if the number is within the specified variance.
     */
    private static boolean within(final float first, final float second, final float variance)
    {
        return second > first - variance && second < first + variance;
    }

    private static float getWordSpacing(final TextPosition position)
    {
        if (position == null) {
            return 0;
        }

        float wordSpacing = 0;

        if (wordSpacing == 0) {
            // try to get width of a space character
            wordSpacing = position.getWidthOfSpace();
            // if still zero fall back to getting the width of the current
            // character
            if (wordSpacing == 0) {
                wordSpacing = position.getWidth();
            }
        }

        return wordSpacing;
    }

    private static boolean validPosition(final List<TextPosition> textList, final int pos)
    {
        return (pos >= 0) && (pos < textList.size());
    }

    /**
     * Detects whether text in two positions is on the same line. This method is a bit fuzzy so we
     * also get potential superscripts and subscripts.
     * 
     * @param cur current position.
     * @param prev previous position.
     * @return if both are in the same line.
     */
    private static boolean isSameLine(final TextPosition cur, final TextPosition prev)
    {
        if (cur.getY() == prev.getY()) {
            return true;
        }
        else {
            final float prevCenter = prev.getY() + prev.getHeight() / 2.0f;
            final float prevHeight = prev.getHeight();
            final float curCenter = cur.getY() + cur.getHeight() / 2.0f;

            final boolean result = Math.abs(curCenter - prevCenter) < (prevHeight * 0.25f);

            // if (!result) {
            // _log.debug("sameLine ["+result+"]"+
            // "[px:"+f_y1[prev]+"-"+f_y2[prev]+":"+contents[prev]+"]"+
            // "[cx:"+f_y1[cur]+"-"+f_y2[cur]+":"+contents[cur]+"]");
            // }

            return result;
        }
    }

    /**
     * Tests if two objects are vertically adjacent or if they are so far away from each other that
     * they have to be considered different blocks.
     * 
     * @param cur_top
     *            current top.
     * @param prev_top
     *            previous top.
     * @param spacing
     *            spacing.
     * @return if the two objects are verticalla adjacent.
     */
    private static boolean isVerticallyAdjacent(final float cur_top, final float prev_top,
            final float spacing)
    {
        /* set vertical error margin */
        final float verterr = (float) (spacing * 1.27);

        final boolean aboveThreshold = (cur_top < (prev_top + verterr));
        final boolean belowprev = (cur_top > prev_top);

        return aboveThreshold && belowprev;
    }

    private static boolean isLeftIndented(final TextPosition cur, final Prediction pred)
    {
        return cur.getX() > (pred.left + (pred.linespacing * 0.2));
    }

    private static boolean isLeftOutdented(final TextPosition cur, final Prediction pred)
    {
        return cur.getX() < (pred.left - (pred.linespacing * 0.2));
    }

    /**
     * Check if the current fragment is in a new column.
     * 
     * @param cur
     *            current text position.
     * @param block
     *            current block.
     * @return if the fragment is in a new column.
     */
    private static boolean isColumnSwitch(final TextPosition cur, final Block block)
    {
        return (cur.getY() < block.top); // && (f_x1[cur] > block.right);
    }

    private static boolean isSignifiantlyWorse(final double qnew, final double qold,
            final double limit)
    {
        final double deviation = Math.abs(((qnew - qold) / (qnew + qold)));
        final boolean result = (deviation > limit) && (qnew < qold);
        // if (_log.isTraceEnabled()) {
        // _log.trace("Deviation: "+deviation+ " - "+(result?"BAD":"OK"));
        // }
        return result;
    }

    /**
     * Determine whether we need to insert a word separator between the two positions or not.
     * 
     * Adapted from PDFBox PDFTextStripper.flushText()
     * 
     * @param cur
     *            current position.
     * @param prev
     *            previous position.
     * @return if the two positions are immediately adjacent.
     */
    private static boolean isNextChar(final TextPosition cur, final TextPosition prev)
    {
        float lastWordSpacing = getWordSpacing(prev);
        final float wordSpacing = getWordSpacing(cur);
        float startOfNextWordX;
        final float endOfLastTextX = prev.getX() + prev.getWidth();

        // RDD - We add a conservative approximation for space determination.
        // basically if there is a blank area between two characters that is
        // equal to some percentage of the word spacing then that will be the
        // start of the next word
        if (lastWordSpacing <= 0) {
            startOfNextWordX = endOfLastTextX + (wordSpacing * 0.50f);
        }
        else {
            startOfNextWordX = endOfLastTextX + (((wordSpacing + lastWordSpacing) / 2f) * 0.50f);
        }

        lastWordSpacing = wordSpacing;

        // if (startOfNextWordX > cur.getX()) {
        // System.out.print("{O:"+(startOfNextWordX - cur.getX())+"}");
        // }

        if (startOfNextWordX != -1 && startOfNextWordX < cur.getX() && prev != null &&
        // only bother adding a space if the last character was not a
        // space
                prev.getCharacter() != null && !prev.getCharacter().endsWith(" ")) {
            return false;
        }
        else {
            return true;
        }
    }

    private List<Line> collectLines(final List<TextPosition> textList, final int blk_start,
            final int depth)
    {
        final ArrayList<Line> lines = new ArrayList<Line>(depth);
        Line l = new Line(textList, blk_start);
        lines.add(l);
        for (int i = 1; i < depth && l.hasNextLine(); i++) {
            l = l.getNextLine();

            // Bail out if we have a potential column switch
            if (l.top < lines.get(lines.size() - 1).bottom) {
                break;
            }
            lines.add(l);
        }
        return lines;
    }

    /**
     * Return a block with the probable linespacing, lineheight and left and right borders.
     * 
     * @param textList
     *            text.
     * @param blk_start
     *            block start.
     * @param depth
     *            depth.
     * @return structure prediction.
     */
    private Prediction predictGeneralStructure(final List<TextPosition> textList,
            final int blk_start, final int depth)
    {
        // Try to fetch the next lines up to depth
        final List<Line> lines = collectLines(textList, blk_start, depth);

        // Calculate the line block parameters
        LineBlock lb = new LineBlock(lines);

        // Iterate once more over the lines because we may have a big spacing
        // indicating a new block.

        final List<Line> lines2 = new ArrayList<Line>(depth);
        final Line l = lines.get(0);
        lines2.add(l);
        for (int i = 1; i < lines.size(); i++) {
            // Bail out if we have too much distance
            if (!isVerticallyAdjacent(lines.get(i).top, lines.get(i - 1).top, lb.linespacing)) {
                break;
            }
            lines2.add(lines.get(i));
        }

        // Get the bounds in buckets
        final Buckets left_buckets = new Buckets(lb.linespacing * 0.1);
        final Buckets right_buckets = new Buckets(lb.linespacing * 0.1);
        for (final Line ln : lines2) {
            left_buckets.put(ln.left);
            right_buckets.put(ln.right);
        }

        // if (_log.isTraceEnabled()) {
        // _log.trace("Left:  size:"+left_buckets.getBest().size()+" - lines:"+lines2.size()+" - depth:"+depth);
        // }

        lb = new LineBlock(lines2);

        // Return values
        final Prediction result = new Prediction();
        result.linespacing = lb.linespacing;
        result.lineheight = lb.avglineheight;
        result.left = (float) left_buckets.getBest().getValue();
        result.right = (float) right_buckets.getBest().getValue();
        result.quality = (float) left_buckets.getBest().size() / (float) depth;

        return result;
    }

    protected Style getStyle(final TextPosition pos)
    {
        if ((pos.getFontSize() * pos.getYScale()) > 14) {
            return Style.HEADING;
        }
        else {
            return Style.PARAGRAPH;
        }
    }

    /**
     * This method is available for subclasses of this class. It will be called before processing of
     * the document start.
     * 
     * @param pdf
     *            The PDF document that is being processed.
     * @throws IOException
     *             If an IO error occurs.
     */
    protected abstract void startDocument(PDDocument pdf)
        throws IOException;

    /**
     * This method is available for subclasses of this class. It will be called after processing of
     * the document finishes.
     * 
     * @param pdf
     *            The PDF document that is being processed.
     * @throws IOException
     *             If an IO error occurs.
     */
    protected abstract void endDocument(PDDocument pdf)
        throws IOException;

    /**
     * Start a new region.
     * 
     * @param style
     *            the style.
     * @throws IOException
     *             If there is any error writing to the stream.
     */
   protected abstract void startRegion(Style style)
        throws IOException;

    /**
     * End a region.
     * 
     * @param style
     *            the style.
     * @throws IOException
     *             If there is any error writing to the stream.
     */
    protected abstract void endRegion(Style style)
        throws IOException;

    /**
     * Start a new page.
     * 
     * @param firstPage
     *            first page.
     * @param lastPage
     *            last page.
     * @param currentPage
     *            current page.
     * @param page
     *            The page we are about to process.
     * 
     * @throws IOException
     *             If there is any error writing to the stream.
     */
    protected abstract void startPage(int firstPage, int lastPage, int currentPage, PDPage page)
        throws IOException;

    /**
     * End a page.
     * 
     * @param firstPage
     *            first page.
     * @param lastPage
     *            last page.
     * @param currentPage
     *            current page.
     * @param page
     *            The page we are about to process.
     * 
     * @throws IOException
     *             If there is any error writing to the stream.
     */
    protected abstract void endPage(int firstPage, int lastPage, int currentPage, PDPage page)
        throws IOException;

    protected abstract void processLineSeparator()
        throws IOException;

    protected abstract void processWordSeparator()
        throws IOException;

    /**
     * Write the string to the output stream.
     * 
     * @param text
     *            The text to write to the stream.
     * @throws IOException
     *             If there is an error when writing the text.
     */
    protected abstract void writeCharacters(TextPosition text)
        throws IOException;

    /**
     * This is the page that the text extraction will start on. The pages start at page 1. For
     * example in a 5 page PDF document, if the start page is 1 then all pages will be extracted. If
     * the start page is 4 then pages 4 and 5 will be extracted. The default value is 1.
     * 
     * @return Value of property startPage.
     */
    public int getStartPage()
    {
        return startPage;
    }

    /**
     * This will set the first page to be extracted by this class.
     * 
     * @param startPageValue
     *            New value of property startPage.
     */
    public void setStartPage(final int startPageValue)
    {
        startPage = startPageValue;
    }

    /**
     * This will get the last page that will be extracted. This is inclusive, for example if a 5
     * page PDF an endPage value of 5 would extract the entire document, an end page of 2 would
     * extract pages 1 and 2. This defaults to Integer.MAX_VALUE such that all pages of the pdf will
     * be extracted.
     * 
     * @return Value of property endPage.
     */
    public int getEndPage()
    {
        return endPage;
    }

    /**
     * This will set the last page to be extracted by this class.
     * 
     * @param endPageValue
     *            New value of property endPage.
     */
    public void setEndPage(final int endPageValue)
    {
        endPage = endPageValue;
    }

    /**
     * @return Returns the suppressDuplicateOverlappingText.
     */
    public boolean shouldSuppressDuplicateOverlappingText()
    {
        return suppressDuplicateOverlappingText;
    }

    /**
     * Get the current page number that is being processed.
     * 
     * @return A 1 based number representing the current page.
     */
    protected int getCurrentPageNo()
    {
        return currentPageNo;
    }

    /**
     * Character strings are grouped by articles. It is quite common that there will only be a
     * single article. This returns a List that contains List objects, the inner lists will contain
     * TextPosition objects.
     * 
     * @return A double List of TextPositions for all text strings on the page.
     */
    protected List<List<TextPosition>> getCharactersByArticle()
    {
        return charactersByArticle;
    }

    /**
     * By default the text stripper will attempt to remove text that overlapps each other. Word
     * paints the same character several times in order to make it look bold. By setting this to
     * false all text will be extracted, which means that certain sections will be duplicated, but
     * better performance will be noticed.
     * 
     * @param suppressDuplicateOverlappingTextValue
     *            The suppressDuplicateOverlappingText to set.
     */
    public void setSuppressDuplicateOverlappingText(boolean suppressDuplicateOverlappingTextValue)
    {
        this.suppressDuplicateOverlappingText = suppressDuplicateOverlappingTextValue;
    }

    /**
     * This will tell if the text stripper should separate by beads.
     * 
     * @return If the text will be grouped by beads.
     */
    public boolean shouldSeparateByBeads()
    {
        return shouldSeparateByBeads;
    }

    /**
     * Set if the text stripper should group the text output by a list of beads. The default value
     * is true!
     * 
     * @param aShouldSeparateByBeads
     *            The new grouping of beads.
     */
    public void setShouldSeparateByBeads(boolean aShouldSeparateByBeads)
    {
        this.shouldSeparateByBeads = aShouldSeparateByBeads;
    }

    static class LineBlock
    {
        final List<Line> lines;
        final float linespacing;
        final float avglineheight;

        LineBlock(final List<Line> ls)
        {
            lines = ls;
            linespacing = calcLinespacing();
            avglineheight = calcAvgLineheight();
        }

        float calcLinespacing()
        {
            if (lines.size() == 1) {
                return Math.abs(lines.get(0).top - lines.get(0).bottom);
            }

            float avgls = 0.0f;
            for (int i = 0; i < (lines.size() - 1); i++) {
                avgls += Math.abs(lines.get(i).top - lines.get(i + 1).top);
            }
            return avgls / (lines.size() - 1);
        }

        private float calcAvgLineheight()
        {
            float avglh = 0.0f;
            for (final Line l : lines) {
                avglh += l.lineheight;
            }
            return avglh / lines.size();
        }
    }

    static class Prediction
    {
        float lineheight;
        float linespacing;
        float left;
        float right;
        float quality;
    }

    static class Line
        extends BasicBlock
    {
        final int start;
        final int end;
        final float lineheight;

        Line(final List<TextPosition> tl, final int pos)
        {
            super(tl);
            start = pos;
            end = findEnd();
            lineheight = growAndCalcLineheight();
        }

        private float growAndCalcLineheight()
        {
            float h = textList.get(start).getHeight();
            reset(start);
            for (int i = start + 1; i < end; i++) {
                h = Math.max(h, textList.get(i).getHeight());
                grow(i);
            }
            return h;
        }

        private int findEnd()
        {
            int cur = start;
            while (validPosition(textList, cur)
                    && isSameLine(textList.get(cur), textList.get(start))) {
                cur++;
            }
            return cur;
        }

        boolean hasNextLine()
        {
            return validPosition(textList, end);
        }

        Line getNextLine()
        {
            if (hasNextLine()) {
                return new Line(textList, end);
            }
            else {
                return null;
            }
        }

        /**
         * Return true if the text position is within the line height boundaries. Left and right
         * boundaries are not checked.
         * 
         * @param pos
         *            text position.
         * @return if the position is within the line.
         */
        boolean withinLine(final TextPosition pos)
        {
            final boolean underTop = top <= pos.getY();
            final boolean overBottom = (pos.getY() + pos.getHeight()) <= bottom;
            return underTop && overBottom;
        }

        boolean isSuperscript(final TextPosition pos)
        {
            final boolean underTop = (top - lineheight * 0.6f) <= pos.getY();
            final boolean overBottom = (pos.getY() + pos.getHeight()) <= bottom;
            return underTop && overBottom;
        }

        boolean isSubscript(final TextPosition pos)
        {
            final boolean underTop = (top <= pos.getY());
            final boolean overBottom = (pos.getY() + pos.getHeight() + lineheight * 0.6f) <= bottom;
            return underTop && overBottom;
        }

        @Override
        public String toString()
        {
            return "[t:" + top + " b:" + bottom + "|" + content + "]";
        }
    }

    static class BasicBlock
    {
        float left;
        float top;
        float right;
        float bottom;
        int lines;
        int last_pos;
        final List<TextPosition> textList;

        // This is for debugging purposes only.
        final StringBuilder content = new StringBuilder();

        public BasicBlock(final List<TextPosition> tl)
        {
            textList = tl;
        }

        float getValue(final Values v)
        {
            switch (v) {
            case BOTTOM:
                return bottom;
            case TOP:
                return top;
            case RIGHT:
                return right;
            case LEFT:
                return left;
            default:
                throw new IllegalArgumentException("Unsupported value");
            }
        }

        void normalize()
        {
            if (top < bottom) {
                final float b = top;
                top = bottom;
                bottom = b;
            }

            if (left > right) {
                final float l = left;
                left = right;
                right = l;
            }
        }

        void reset(final int pos)
        {
            final TextPosition p = textList.get(pos);

            last_pos = pos;
            lines = 0;
            left = p.getX();
            right = p.getX() + p.getWidth();
            top = p.getY();
            bottom = p.getY() + p.getHeight();

            content.setLength(0);
            content.append(p.getCharacter());
        }

        void grow(final int pos)
        {
            final TextPosition p = textList.get(pos);

            if (!isSameLine(p, textList.get(last_pos))) {
                lines++;
            }

            last_pos = pos;
            left = Math.min(p.getX(), left);
            right = Math.max(p.getX() + p.getWidth(), right);
            top = Math.min(p.getY(), top);
            bottom = Math.max(p.getY() + p.getHeight(), bottom);

            content.append(" ");
            content.append(p.getCharacter());
        }
    }

    class Block
        extends BasicBlock
    {
        float linespacing;
        float lineheight;

        Block(final List<TextPosition> textList, final int pos)
        {
            super(textList);
            reset(pos);
        }

        @Override
        void reset(final int pos)
        {
            super.reset(pos);
            linespacing = new LineBlock(collectLines(textList, pos, 3)).linespacing;
            lineheight = Math.abs(bottom - top);
        }

        @Override
        void grow(final int pos)
        {
            super.grow(pos);
            lineheight = Math.max(lineheight, textList.get(pos).getHeight());
        }
    }
}