MetadataExtractorMapper.java example

Explorer

iis-master
- iis-3rdparty-avro-json
  - src
    - main
      - java
        com
        cloudera
        science
        avro
        common
        JsonConverter.java
        SchemaLoader.java
        streaming
        AvroAsJSONInputFormat.java
        AvroAsJSONOutputFormat.java
        AvroAsJSONRecordReader.java
        AvroAsJSONRecordWriter.java
    - test
      - java
        com
        cloudera
        science
        avro
        common
        JsonConverterTest.java
- iis-3rdparty-avrojsoncoders
  - src
    - main
      - java
        org
        apache
        avro
        io
        HackedJsonDecoder.java
        HackedJsonEncoder.java
        package-info.java
    - test
      - java
        org
        apache
        avro
        io
        JsonCodersTest.java
- iis-build
  - iis-build-properties-maven-plugin
    - src
      - main
        java
        eu
        dnetlib
        maven
        plugin
        properties
        GenerateOoziePropertiesMojo.java
        WritePredefinedProjectProperties.java
      - test
        java
        eu
        dnetlib
        maven
        plugin
        properties
        GenerateOoziePropertiesMojoTest.java
        WritePredefinedProjectPropertiesTest.java
- iis-common
  - src
    - main
      - java
        eu
        dnetlib
        iis
        common
        FsShellPermissions.java
        InfoSpaceConstants.java
        WorkflowRuntimeParameters.java
        cache
        CacheMetadataManagingProcess.java
        FileSystemFacade.java
        FileSystemFacadeFactory.java
        HadoopFileSystemFacade.java
        counter
        NamedCounters.java
        NamedCountersAccumulableParam.java
        NamedCountersFileWriter.java
        PigCounters.java
        PigCountersParser.java
        fault
        FaultUtils.java
        importer
        CermineAffiliation.java
        CermineAffiliationBuilder.java
        java
        CmdLineParser.java
        CmdLineParserException.java
        CmdLineParserForProcessConstruction.java
        CmdLineParserForProcessRunParameters.java
        PortBindings.java
        Ports.java
        Process.java
        ProcessException.java
        ProcessParameters.java
        ProcessUtils.java
        ProcessWrapper.java
        io
        AvroDataStoreReader.java
        CloseableIterator.java
        CountingIterator.java
        DataStore.java
        FileSystemPath.java
        HdfsUtils.java
        JsonStreamReader.java
        JsonStreamWriter.java
        JsonUtils.java
        SequenceFileTextValueReader.java
        jsonworkflownodes
        PortSpecifications.java
        Producer.java
        StringPortSpecificationExtractor.java
        porttype
        AnyPortType.java
        AvroPortType.java
        PortType.java
        javamapreduce
        MultipleOutputs.java
        hack
        AvroMultipleOutputs.java
        AvroSchemaGenerator.java
        package-info.java
        package-info.java
        lock
        LockManagingProcess.java
        model
        extrainfo
        ExtraInfoConstants.java
        citations
        BlobCitationEntry.java
        TypedId.java
        converter
        AbstractExtraInfoConverter.java
        CitationsExtraInfoConverter.java
        ExtraInfoConverter.java
        oozie
        OozieClientFactory.java
        property
        ConditionalPropertySetter.java
        pig
        udfs
        EmptyBagToNull.java
        EmptyMap.java
        IdConfidenceTupleDeduplicator.java
        IdReplacerUDF.java
        IntegerFirstNotEmpty.java
        NullToEmptyBag.java
        NullTupleFieldsToNull.java
        StringBagsDifference.java
        StringBagsMerger.java
        StringFirstNotEmpty.java
        StringListToListWithIndexes.java
        StringMapsMerger.java
        protobuf
        AvroToProtoBufConverter.java
        AvroToProtoBufOneToOneMapper.java
        report
        CountersToReportEntriesConverter.java
        OozieTimeReportGenerator.java
        PigCountersReportGenerator.java
        ReportEntryFactory.java
        ReportGenerator.java
        ReportPigCounterMapping.java
        ReportPigCounterMappingParser.java
        ReportPigCountersResolver.java
        spark
        pipe
        SparkPipeExecutor.java
        SparkPipeMapReduce.java
        string
        CharSequenceUtils.java
        DiacriticsRemover.java
        LenientComparisonStringNormalizer.java
        StringNormalizer.java
        utils
        AvroGsonFactory.java
        AvroUtils.java
        ByteArrayUtils.java
        EmptyDatastoreVerifierProcess.java
    - test
      - java
        eu
        dnetlib
        iis
        common
        AbstractOozieWorkflowTestCase.java
        HdfsTestHelper.java
        IntegrationTest.java
        IntegrationTestPropertiesReader.java
        MavenTestWorkflowRunner.java
        OozieCmdLineAnswerParser.java
        OozieLogFileParser.java
        OozieWorkflowTestConfiguration.java
        OrderedProperties.java
        PropertiesFileUtils.java
        SshConnectionManager.java
        SshExecUtils.java
        SshHdfsFileFetcher.java
        SshOozieClient.java
        SshSimpleConnection.java
        TestsIOUtils.java
        TestsIOUtilsTest.java
        WorkflowRuntimeParametersTest.java
        WorkflowTestResult.java
        cache
        CacheMetadataManagingProcessTest.java
        counter
        NamedCountersAccumulableParamTest.java
        NamedCountersFileWriterTest.java
        NamedCountersTest.java
        PigCountersParserTest.java
        PigCountersTest.java
        fault
        FaultUtilsTest.java
        importer
        CermineAffiliationBuilderTest.java
        java
        CmdLineParserForProcessConstructionTest.java
        CmdLineParserForProcessRunParametersTest.java
        ProcessUtilsTest.java
        ProcessWrapperTest.java
        TestProcess.java
        io
        DataStoreTest.java
        JsonStreamReaderTest.java
        JsonStreamWriterTest.java
        JsonUtilsTest.java
        SequenceFileTextValueReaderTest.java
        jsonworkflownodes
        JsonPortSpecification.java
        ProducerAndConsumerTest.java
        RecordCountPortSpecification.java
        RecordCountTestConsumer.java
        SelectiveTestingConsumer.java
        TestingConsumer.java
        TestingJsonConsumer.java
        package-info.java
        javamapreduce
        hack
        AvroMultipleOutputsTest.java
        AvroSchemaGeneratorTest.java
        MockOutputFormat.java
        lock
        LockManagingProcessTest.java
        model
        extrainfo
        citations
        AlphaNumericCitationComparatorTest.java
        BlobCitationEntryTest.java
        TypedIdTest.java
        converter
        CitationsExtraInfoConverterTest.java
        oozie
        OozieClientFactoryTest.java
        pig
        udfs
        EmptyBagToNullTest.java
        EmptyMapTest.java
        IdConfidenceTupleDeduplicatorTest.java
        IdReplacerUDFTest.java
        IntegerFirstNotEmptyTest.java
        NullToEmptyBagTest.java
        NullTupleFieldsToNullTest.java
        StringBagsDifferenceTest.java
        StringBagsMergerTest.java
        StringFirstNotEmptyTest.java
        StringListToListWithIndexesTest.java
        StringMapsMergerTest.java
        report
        CountersToReportEntriesConverterTest.java
        OozieTimeReportGeneratorTest.java
        PigCountersReportGeneratorTest.java
        ReportEntryFactoryTest.java
        ReportGeneratorTest.java
        ReportPigCounterMappingParserTest.java
        ReportPigCountersResolverTest.java
        test
        ReportEntryMatcher.java
        ReportEntryMatcherTest.java
        ReportTestingConsumer.java
        ValueSpecMatcher.java
        ValueSpecMatcherTest.java
        spark
        avro
        AvroSaverTest.java
        pipe
        SparkPipeExecutorTest.java
        string
        CharSequenceUtilsTest.java
        DiacriticsRemoverTest.java
        SimpleStringNormalizerTest.java
        utils
        AvroAssertTestUtil.java
        AvroTestUtils.java
        AvroToolsTests.java
        AvroUtilsTest.java
        ByteArrayUtilsTest.java
        EmptyDatastoreVerifierProcessTest.java
        JsonAvroTestUtils.java
        JsonAvroTestUtilsTest.java
        JsonTestUtils.java
        JsonTestUtilsTest.java
- iis-wf
  - iis-wf-affmatching
    - src
      - main
        java
        eu
        dnetlib
        iis
        wf
        affmatching
        AffMatchingJob.java
        AffMatchingService.java
        bucket
        AffOrgHashBucketJoiner.java
        AffOrgJoiner.java
        AffiliationOrgNameBucketHasher.java
        BucketHasher.java
        DocOrgRelationAffOrgJoiner.java
        MainSectionBucketHasher.java
        OrganizationNameBucketHasher.java
        OrganizationSectionHasher.java
        StringPartFirstLettersHasher.java
        projectorg
        model
        AffMatchDocumentOrganization.java
        AffMatchDocumentProject.java
        AffMatchProjectOrganization.java
        read
        DocumentOrganizationCombiner.java
        DocumentOrganizationFetcher.java
        DocumentProjectConverter.java
        DocumentProjectFetcher.java
        DocumentProjectMerger.java
        DocumentProjectReader.java
        IisDocumentProjectReader.java
        IisInferredDocumentProjectReader.java
        IisProjectOrganizationReader.java
        InferredDocumentProjectConverter.java
        ProjectOrganizationConverter.java
        ProjectOrganizationReader.java
        match
        AffMatchResultChooser.java
        AffOrgMatchComputer.java
        AffOrgMatchStrengthRecalculator.java
        AffOrgMatcher.java
        DocOrgRelationMatcherFactory.java
        FirstWordsHashBucketMatcherFactory.java
        MainSectionHashBucketMatcherFactory.java
        voter
        AbstractAffOrgMatchVoter.java
        AbstractSectionedMatchVoter.java
        AffOrgMatchVoter.java
        AffOrgMatchVotersFactory.java
        CommonAffSectionWordsVoter.java
        CommonSimilarWordCalculator.java
        CommonWordsVoter.java
        CompositeMatchVoter.java
        CountryCodeLooseMatchVoter.java
        CountryCodeStrictMatchVoter.java
        GetOrgAlternativeNamesFunction.java
        GetOrgNameFunction.java
        GetOrgShortNameFunction.java
        JaroWinklerDistanceCalculator.java
        NameStrictWithCharFilteringMatchVoter.java
        SectionedNameLevenshteinMatchVoter.java
        SectionedNameStrictMatchVoter.java
        StringFilter.java
        StringSimilarityChecker.java
        model
        AffMatchAffiliation.java
        AffMatchOrganization.java
        AffMatchResult.java
        normalize
        AffMatchAffiliationNormalizer.java
        AffMatchOrganizationNormalizer.java
        CountryCodeNormalizer.java
        OrganizationNameNormalizer.java
        WebsiteUrlNormalizer.java
        orgalternativenames
        AffMatchOrganizationAltNameFiller.java
        CsvOrganizationAltNamesDictionaryFactory.java
        OrganizationAltNameConst.java
        orgsection
        OrganizationSection.java
        OrganizationSectionsSplitter.java
        read
        AffiliationConverter.java
        AffiliationReader.java
        IisAffiliationReader.java
        IisOrganizationReader.java
        OrganizationConverter.java
        OrganizationReader.java
        write
        AffMatchReportCounters.java
        AffMatchReportGenerator.java
        AffMatchResultConverter.java
        AffMatchResultWriter.java
        DuplicateMatchedOrgStrengthRecalculator.java
        IisAffMatchResultWriter.java
      - test
        java
        eu
        dnetlib
        iis
        wf
        affmatching
        AffMatchingAffOrgQualityTest.java
        AffMatchingDocOrgQualityTest.java
        AffMatchingJobTest.java
        AffMatchingResultPrinter.java
        AffMatchingServiceTest.java
        AffMatchingWorkflowTest.java
        bucket
        AffOrgHashBucketJoinerTest.java
        AffiliationOrgNameBucketHasherTest.java
        DocOrgRelationAffOrgJoinerTest.java
        MainSectionBucketHasherTest.java
        OrganizationNameBucketHasherTest.java
        OrganizationSectionHasherTest.java
        StringPartFirstLettersHasherTest.java
        projectorg
        read
        DocumentOrganizationCombinerTest.java
        DocumentOrganizationFetcherTest.java
        DocumentProjectConverterTest.java
        DocumentProjectFetcherTest.java
        DocumentProjectMergerTest.java
        IisDocumentProjectReaderTest.java
        IisInferredDocumentProjectReaderTest.java
        IisProjectOrganizationReaderTest.java
        InferredDocumentProjectConverterTest.java
        ProjectOrganizationConverterTest.java
        match
        AffMatchResultChooserTest.java
        AffOrgMatchComputerTest.java
        AffOrgMatchStrengthRecalculatorTest.java
        AffOrgMatchVoterAssertUtils.java
        AffOrgMatcherTest.java
        DocOrgRelationMatcherFactoryTest.java
        FirstWordsHashBucketMatcherFactoryTest.java
        MainSectionHashBucketMatcherFactoryTest.java
        voter
        AffOrgMatchVoterStrengthEstimatorAndTest.java
        AffOrgMatchVotersFactoryTest.java
        CommonAffSectionWordsVoterTest.java
        CommonSimilarWordCalculatorTest.java
        CommonWordsVoterTest.java
        CompositeMatchVoterTest.java
        CountryCodeLooseMatchVoterTest.java
        CountryCodeStrictMatchVoterTest.java
        GetOrgAlternativeNamesFunctionTest.java
        GetOrgNameFunctionTest.java
        GetOrgShortNameFunctionTest.java
        JaroWinklerDistanceTest.java
        NameStrictWithCharFilteringMatchVoterTest.java
        SectionedNameLevenshteinMatchVoterTest.java
        SectionedNameStrictMatchVoterTest.java
        StringFilterTest.java
        StringSimilarityCheckerTest.java
        model
        SimpleAffMatchResult.java
        normalize
        AffMatchAffiliationNormalizerTest.java
        AffMatchOrganizationNormalizerTest.java
        CountryCodeNormalizerTest.java
        OrganizationNameNormalizerTest.java
        WebsiteUrlNormalizerTest.java
        orgalternativenames
        AffMatchOrganizationAltNameFillerTest.java
        CsvOrganizationAltNamesDictionaryFactoryTest.java
        orgsection
        OrganizationSectionsSplitterTest.java
        read
        AffiliationConverterTest.java
        IisAffiliationReaderTest.java
        IisOrganizationReaderTest.java
        OrganizationConverterTest.java
        write
        AffMatchReportGeneratorTest.java
        AffMatchResultConverterTest.java
        DuplicateMatchedOrgStrengthRecalculatorTest.java
        IisAffMatchResultWriterTest.java
        SimpleAffMatchResultWriter.java
  - iis-wf-citationmatching
    - src
      - main
        java
        eu
        dnetlib
        iis
        wf
        citationmatching
        CitationMatchingCounterReporter.java
        CitationOutputConverter.java
        CitationOutputWriter.java
        DocumentMetadataInputConverter.java
        DocumentMetadataInputReader.java
        IisCitationMatchingJob.java
        ReferenceMetadataInputConverter.java
        ReferenceMetadataInputReader.java
        converter
        BasicMetadataDataExtractionUtil.java
        DocumentMetadataToMatchableConverter.java
        MatchedCitationToCitationConverter.java
        ReferenceMetadataToMatchableConverter.java
        entity_id
        CitEntityId.java
        DocEntityId.java
        input
        AuthorNameAttacher.java
        AuthorNameMappingExtractor.java
        CitationMatchingInputTransformerJob.java
        DocumentToCitationDocumentConverter.java
        output
        CitationMatchingOutputTransformerJob.java
        CitationToCommonCitationConverter.java
      - test
        java
        eu
        dnetlib
        iis
        wf
        citationmatching
        CitationMatchingCounterReporterTest.java
        CitationOutputConverterTest.java
        CitationOutputWriterTest.java
        DocumentMetadataInputConverterTest.java
        DocumentMetadataInputReaderTest.java
        IisCitationMatchingJobTest.java
        ReferenceMetadataInputConverterTest.java
        ReferenceMetadataInputReaderTest.java
        converter
        DocumentAvroDatastoreProducer.java
        DocumentMetadataToMatchableConverterTest.java
        MatchedCitationToCitationConverterTest.java
        ReferenceMetadataToMatchableConverterTest.java
        entity_id
        CitEntityIdTest.java
        DocEntityIdTest.java
        input
        AuthorNameAttacherTest.java
        AuthorNameMappingDataProvider.java
        AuthorNameMappingExtractorTest.java
        CitationMatchingInputTransformerJobTest.java
        DocumentToCitationDocumentConverterTest.java
        main_workflow
        CitationMatchingWorkflowTest.java
        output
        CitationMatchingOutputTransformerJobTest.java
        CitationToCommonCitationConverterTest.java
  - iis-wf-citationmatching-direct
    - src
      - main
        java
        eu
        dnetlib
        iis
        wf
        citationmatching
        direct
        CitationMatchingDirectJob.java
        converter
        DirectCitationToCitationConverter.java
        DocumentToDirectCitationMetadataConverter.java
        model
        IdWithPosition.java
        service
        CitationMatchingDirectCounterReporter.java
        ExternalIdCitationMatcher.java
        ExternalIdReferenceExtractor.java
        IdentifierMappingExtractor.java
        PickFirstDocumentFunction.java
        PickResearchArticleDocumentFunction.java
      - test
        java
        eu
        dnetlib
        iis
        wf
        citationmatching
        direct
        CitationMatchingDirectJobTest.java
        CitationMatchingDirectWorkflowTest.java
        converter
        DirectCitationToCitationConverterTest.java
        DocumentToDirectCitationMetadataConverterTest.java
        service
        CitationMatchingDirectCounterReporterTest.java
        ExternalIdCitationMatcherTest.java
        ExternalIdReferenceExtractorTest.java
        IdentifierMappingExtractorTest.java
        PickFirstDocumentFunctionTest.java
        PickResearchArticleDocumentFunctionTest.java
  - iis-wf-collapsers
    - src
      - main
        java
        eu
        dnetlib
        iis
        wf
        collapsers
        CollapserReducer.java
        CollapserUtils.java
        GroupByFieldMapper.java
        RecordCollapser.java
        basic
        AbstractSignificantFieldsCollapser.java
        AbstractSimpleCollapser.java
        BestFilledCollapser.java
        BestFilledMergingCollapser.java
        GenericCitationCollapser.java
      - test
        java
        eu
        dnetlib
        iis
        wf
        collapsers
        CollapserReducerTest.java
        CollapserUtilsTest.java
        DummyDocumentToProjectCollapser.java
        GroupByFieldMapperTest.java
        SampleData.java
        basic
        BestFilledCollapserTest.java
        BestFilledMergingCollapserTest.java
        GenericCitationCollapserTest.java
        WorkflowTest.java
        citation
        CitationCollapserWorkflowTest.java
  - iis-wf-documentsclassification
    - src
      - main
        java
        eu
        dnetlib
        iis
        wf
        documentsclassification
        DocClassificationReportCounterKeys.java
        DocClassificationReportGenerator.java
        DocumentClassificationJob.java
        DocumentToDocClassificationMetadataConverter.java
      - test
        java
        eu
        dnetlib
        iis
        wf
        documentsclassification
        DocClassificationReportGeneratorTest.java
        DocumentClassificationJobTest.java
        DocumentClassificationWorkflowTest.java
        DocumentToDocClassificationMetadataConverterTest.java
  - iis-wf-documentssimilarity
    - src
      - main
        java
        eu
        dnetlib
        iis
        wf
        documentssimilarity
        converter
        DocumentMetadataAvroToProtoBufConverter.java
        TsvToAvroMapper.java
      - test
        java
        eu
        dnetlib
        iis
        wf
        documentssimilarity
        DocumentSimilarityReportConsumer.java
        DocumentsSimilarityWorkflowTest.java
        converter
        AvroToProtoBufConvertersTest.java
        TsvToAvroMapperTest.java
        input
        DocumentsSimilarityInputTransformerWorkflowTest.java
        producer
        DocumentAvroDatastoreProducer.java
  - iis-wf-export-actionmanager
    - src
      - main
        java
        eu
        dnetlib
        iis
        wf
        export
        actionmanager
        ExportWorkflowRuntimeParameters.java
        api
        ActionManagerServiceFacade.java
        SequenceFileActionManagerServiceFacade.java
        cfg
        StaticConfigurationProvider.java
        entity
        AbstractEntityExporterProcess.java
        DatasetExporterProcess.java
        DocumentExporterProcess.java
        facade
        MDStoreFacade.java
        MDStoreFacadeFactory.java
        WebServiceMDStoreFacade.java
        WebServiceMDStoreFacadeFactory.java
        generator
        ExportMode.java
        module
        AbstractActionBuilderFactory.java
        AbstractBuilderModule.java
        AbstractDocumentToConceptsActionBuilderModuleFactory.java
        ActionBuilderFactory.java
        ActionBuilderModule.java
        AlgorithmName.java
        CitationsActionBuilderModuleFactory.java
        CitationsActionBuilderModuleUtils.java
        DocumentSimilarityActionBuilderModuleFactory.java
        DocumentToConceptIdsActionBuilderModuleFactory.java
        DocumentToDataSetActionBuilderModuleFactory.java
        DocumentToDocumentClassesActionBuilderModuleFactory.java
        DocumentToPdbActionBuilderModuleFactory.java
        DocumentToProjectActionBuilderModuleFactory.java
        DocumentToProjectConceptsActionBuilderModuleFactory.java
        DocumentToSoftwareUrlActionBuilderModuleFactory.java
        MappingNotDefinedException.java
        MatchedOrganizationActionBuilderModuleFactory.java
        TrustLevelThresholdExceededException.java
        sequencefile
        SequenceFileExporterMapper.java
      - test
        java
        eu
        dnetlib
        iis
        wf
        export
        actionmanager
        ProtoBuffMergingTest.java
        api
        SequenceFileActionManagerServiceFacadeTest.java
        entity
        DatasetExporterProcessTest.java
        DocumentExporterProcessTest.java
        EntityExportWorkflowTest.java
        VerificationUtils.java
        facade
        MockMDStoreFacadeFactory.java
        WebServiceMDStoreFacadeFactoryTest.java
        WebServiceMDStoreFacadeTest.java
        module
        AbstractActionBuilderModuleFactoryTest.java
        AbstractDocumentToConceptsActionBuilderModuleFactoryTest.java
        CitationsActionBuilderModuleFactoryTest.java
        DocumentSimilarityActionBuilderModuleFactoryTest.java
        DocumentToConceptIdsActionBuilderModuleFactoryTest.java
        DocumentToDatasetActionBuilderModuleFactoryTest.java
        DocumentToDocumentClassesActionBuilderModuleFactoryTest.java
        DocumentToPdbActionBuilderModuleFactoryTest.java
        DocumentToProjectActionBuilderModuleFactoryTest.java
        DocumentToProjectConceptsActionBuilderModuleFactoryTest.java
        DocumentToSoftwareUrlActionBuilderModuleFactoryTest.java
        MatchedOrganizationActionBuilderModuleFactoryTest.java
        VerificationUtils.java
        sequencefile
        FieldAccessor.java
        FieldAccessorException.java
        FieldAccessorTest.java
        FieldDecoder.java
        FieldDecoderException.java
        MockDocumentProjectActionBuilderFactory.java
        OafFieldDecoder.java
        SequenceFileExporterMapperTest.java
        TestingConsumer.java
        WorkflowTest.java
  - iis-wf-import
    - src
      - main
        java
        eu
        dnetlib
        iis
        wf
        importer
        AbstractIdentifierDatastoreBuilder.java
        DataFileRecordReceiver.java
        DataFileRecordReceiverWithCounter.java
        ImportWorkflowRuntimeParameters.java
        OafHelper.java
        RecordReceiver.java
        concept
        ConceptXmlHandler.java
        ISLookupServiceBasedConceptImporter.java
        content
        DocumentContentUrlBasedImporterMapper.java
        DocumentContentUrlDispatcher.java
        DocumentTextUrlBasedImporterMapper.java
        InvalidSizeException.java
        ObjectStoreContentProviderUtils.java
        ObjectStoreDocumentContentUrlImporterMapper.java
        ObjectStoreIdentifierDatastoreBuilder.java
        approver
        ComplexContentApprover.java
        ComplexIdentifiableContentApprover.java
        ContentApprover.java
        DeduplicationIdentifiableContentApprover.java
        IdentifiableContentApprover.java
        InvalidCountableContentApproverWrapper.java
        PDFHeaderBasedContentApprover.java
        dataset
        DataciteDumpXmlHandler.java
        DatasetImporterMapper.java
        DatasetMetadata.java
        MDStoreIdentifierDatastoreBuilder.java
        facade
        AbstractResultSetAwareWebServiceFacade.java
        ISLookupFacade.java
        MDStoreFacade.java
        ObjectStoreFacade.java
        ServiceFacadeException.java
        ServiceFacadeFactory.java
        ServiceFacadeUtils.java
        WebServiceISLookupFacade.java
        WebServiceISLookupFacadeFactory.java
        WebServiceMDStoreFacade.java
        WebServiceMDStoreFacadeFactory.java
        WebServiceObjectStoreFacade.java
        WebServiceObjectStoreFacadeFactory.java
        infospace
        ImportInformationSpaceMapper.java
        ImportInformationSpaceReducer.java
        InfoSpaceRecord.java
        OafBodyWithOrderedUpdates.java
        QualifiedOafJsonRecord.java
        approver
        ComplexApprover.java
        DataInfoBasedApprover.java
        FieldApprover.java
        ResultApprover.java
        converter
        DeduplicationMappingConverter.java
        DocumentMetadataConverter.java
        DocumentToProjectRelationConverter.java
        FundingTreeHandler.java
        FundingTreeParser.java
        InfoSpaceRecordUtils.java
        OafEntityToAvroConverter.java
        OafEntityWithRelsToAvroConverter.java
        OafRelToAvroConverter.java
        OrganizationConverter.java
        PersonConverter.java
        ProjectConverter.java
        ProjectToOrganizationRelationConverter.java
        stream
        project
        ProjectDetailConverter.java
        StreamingFacade.java
        StreamingProjectImporter.java
        UrlStreamingFacade.java
        UrlStreamingFacadeFactory.java
      - test
        java
        eu
        dnetlib
        iis
        wf
        importer
        DataFileRecordReceiverWithCounterTest.java
        IdentifierDatastoreBuilderTest.java
        StaticResourcesProvider.java
        VerificationUtils.java
        concept
        ConceptXmlHandlerTest.java
        EmptyResultsISLookupFacadeFactory.java
        ISLookupServiceBasedConceptImporterTest.java
        MockISLookupFacadeFactory.java
        WorkflowTest.java
        content
        DocumentContentUrlBasedImporterMapperTest.java
        DocumentContentUrlDispatcherTest.java
        DocumentTextUrlBasedImporterMapperTest.java
        ExceptionThrowingObjectStoreFacadeFactory.java
        MockObjectStoreFacadeFactory.java
        ObjectStoreContentProviderUtilsTest.java
        ObjectStoreDocumentContentUrlImporterMapperTest.java
        ObjectStoresProvider.java
        WorkflowTest.java
        approver
        ComplexContentApproverTest.java
        ComplexIdentifiableContentApproverTest.java
        DeduplicationIdentifiableContentApproverTest.java
        InvalidCountableContentApproverWrapperTest.java
        PDFHeaderBasedContentApproverTest.java
        dataset
        DataciteXmlImporterTest.java
        MockMDStoreFacadeFactory.java
        WorkflowTest.java
        facade
        ServiceFacadeUtilsTest.java
        infospace
        ImportInformationSpaceMapperTest.java
        ImportInformationSpaceReducerTest.java
        WorkflowTest.java
        converter
        DeduplicationMappingConverterTest.java
        DocumentMetadataConverterTest.java
        DocumentToProjectRelationConverterTest.java
        FundingTreeParserTest.java
        InfoSpaceRecordUtilsTest.java
        OafRelToAvroConverterTestBase.java
        OrganizationConverterTest.java
        PersonConverterTest.java
        ProjectConverterTest.java
        ProjectToOrganizationRelationConverterTest.java
        input
        approver
        ComplexApproverTest.java
        DataInfoBasedApproverTest.java
        stream
        project
        ProjectDetailConverterTest.java
        StreamProjectWorkflowTest.java
        StreamingFacadeMockFactory.java
        StreamingProjectImporterTest.java
        UrlStreamingFacadeFactoryTest.java
        UrlStreamingFacadeTest.java
  - iis-wf-ingest
    - src
      - main
        java
        eu
        dnetlib
        iis
        wf
        ingest
        html
        HtmlToPlaintextIngester.java
        webcrawl
        fundings
        WebcrawlFundingsHandler.java
        WebcrawlFundingsIngester.java
      - test
        java
        eu
        dnetlib
        iis
        wf
        ingest
        html
        HtmlToPlaintextIngesterTest.java
        plaintext
        WorkflowTest.java
        webcrawl
        fundings
        WebcrawlFundingsHandlerTest.java
        WebcrawlFundingsIngesterTest.java
        WorkflowTest.java
  - iis-wf-ingest-pmc
    - src
      - main
        java
        eu
        dnetlib
        iis
        wf
        ingest
        pmc
        metadata
        ArticleMetaXmlHandler.java
        CermineToIngestAffConverter.java
        JatsAuthor.java
        JatsXmlConstants.java
        JatsXmlHandler.java
        JournalMetaXmlHandler.java
        MetadataImporter.java
        ProcessingFinishedAwareXmlHandler.java
        RefListXmlHandler.java
        TagHierarchyUtils.java
        XmlSwitcherHandler.java
        plaintext
        NlmToDocumentTextConverter.java
      - test
        java
        eu
        dnetlib
        iis
        wf
        ingest
        pmc
        metadata
        ArticleMetaXmlHandlerTest.java
        AssertExtractedDocumentMetadata.java
        CermineToIngestAffConverterTest.java
        JatsXmlHandlerTest.java
        MetadataImporterTest.java
        TagHierarchyUtilsTest.java
        WorkflowTest.java
        plaintext
        NlmToDocumentTextConverterTest.java
  - iis-wf-metadataextraction
    - src
      - main
        java
        eu
        dnetlib
        iis
        wf
        metadataextraction
        CermineToMetadataAffConverter.java
        MetadataExtractorMapper.java
        NlmToDocumentWithBasicMetadataConverter.java
      - test
        java
        eu
        dnetlib
        iis
        wf
        metadataextraction
        CermineMetadataExtractionTest.java
        CermineToMetadataAffConverterTest.java
        ExamplePdfBasedDocumentContentGenerator.java
        LockManagingProcessMock.java
        MetadataExtractionCacheWorkflowTest.java
        MetadataExtractorMain.java
        MetadataExtractorMapperTest.java
        NlmToDocumentWithBasicMetadataConverterTest.java
        StandardPDFExamples.java
        UnmetExpectationException.java
        WorkflowTest.java
  - iis-wf-primary
    - src
      - test
        java
        eu
        dnetlib
        iis
        wf
        primary
        converters
        DocumentClasspathToTextConverter.java
        processing
        WorkflowTest.java
  - iis-wf-referenceextraction
    - src
      - main
        java
        eu
        dnetlib
        iis
        wf
        referenceextraction
        AbstractDBBuilder.java
        FileSystemFacade.java
        FileSystemFacadeFactory.java
        HadoopFileSystemFacade.java
        dataset
        DatasetDBBuilder.java
        package-info.java
        project
        ProjectDBBuilder.java
        ProjectFunderReportJob.java
        package-info.java
      - test
        java
        eu
        dnetlib
        iis
        wf
        referenceextraction
        DBBuilderTest.java
        dataset
        DatasetDBProducer.java
        DatasetRefDataciteWfTest.java
        DatasetRefExtractionInputFilterWfTest.java
        DatasetRefExtractionOutputTransformerWfTest.java
        DatasetRefMainWfTest.java
        DatasetRefOpentrialsWfTest.java
        pdb
        WorkflowTest.java
        project
        ProjectFunderReportJobTest.java
        ProjectFunderReportWorkflowTest.java
        ProjectRefExtractionFromImportWfTest.java
        ProjectRefExtractionInputFilterWfTest.java
        ProjectRefExtractionToConceptWfTest.java
        ProjectRefExtractionWfTest.java
        researchinitiative
        WorkflowTest.java
        softwareurl
        SoftwareUrlRefExtractionOutputTransformerWfTest.java
        SoftwareUrlRefExtractionWfTest.java
  - iis-wf-report
    - src
      - main
        java
        eu
        dnetlib
        iis
        wf
        report
        CounterReportValueJsonConverter.java
        DurationReportValueJsonConverter.java
        ReportEntryJsonAppender.java
        ReportMerger.java
        ReportValueJsonConverter.java
        ReportValueJsonConverterManager.java
      - test
        java
        eu
        dnetlib
        iis
        wf
        report
        CounterReportValueJsonConverterTest.java
        DurationReportValueJsonConverterTest.java
        ReportEntryJsonAppenderTest.java
        ReportMergerTest.java
        ReportValueJsonConverterManagerTest.java
        ReportWorkflowTest.java
  - iis-wf-transformers
    - src
      - test
        java
        eu
        dnetlib
        iis
        wf
        transformer
        export
        identifier
        documenttodataset
        DocDatasetToMdStoreWorkflowTest.java
        transformers
        common
        citations
        from
        referencemetadata
        CitationsFromReferenceMetadataWorkflowTest.java
        existencefilter
        sampledataproducer
        WorkflowTest.java
        union
        UnionWorkflowTest.java
        export
        citations
        WorkflowTest.java
        concepts
        ExportConceptsTransformerWfTest.java
        idreplacer
        WorkflowTest.java
        importer
        documentmetadata
        idextractor
        WorkflowTest.java
        ingest
        pmc
        metadata
        WorkflowTest.java
        metadataextraction
        WorkflowTest.java
        metadatamerger
        WorkflowTest.java

package eu.dnetlib.iis.wf.metadataextraction;

import java.io.IOException;
import java.io.InputStream;
import java.nio.ByteBuffer;
import java.util.Arrays;
import java.util.Collections;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;

import org.apache.avro.mapred.AvroKey;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Counter;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.log4j.Logger;
import org.apache.zookeeper.server.ByteBufferInputStream;
import org.jdom.Document;
import org.jdom.Element;

import com.itextpdf.text.exceptions.InvalidPdfException;

import eu.dnetlib.iis.audit.schemas.Fault;
import eu.dnetlib.iis.common.WorkflowRuntimeParameters;
import eu.dnetlib.iis.common.fault.FaultUtils;
import eu.dnetlib.iis.common.javamapreduce.MultipleOutputs;
import eu.dnetlib.iis.importer.schemas.DocumentContent;
import eu.dnetlib.iis.metadataextraction.schemas.ExtractedDocumentMetadata;
import eu.dnetlib.iis.wf.importer.content.approver.ContentApprover;
import eu.dnetlib.iis.wf.importer.content.approver.InvalidCountableContentApproverWrapper;
import eu.dnetlib.iis.wf.importer.content.approver.PDFHeaderBasedContentApprover;
import pl.edu.icm.cermine.ContentExtractor;
import pl.edu.icm.cermine.exception.AnalysisException;
import pl.edu.icm.cermine.exception.TransformationException;
import pl.edu.icm.cermine.tools.timeout.TimeoutException;

/**
 * Metadata extractor module.
 * 
 * @author Mateusz Kobos
 * @author mhorst
 *
 */
public class MetadataExtractorMapper extends Mapper<AvroKey<DocumentContent>, NullWritable, NullWritable, NullWritable> {

    public static final String NAMED_OUTPUT_META = "output.meta";
    
    public static final String NAMED_OUTPUT_FAULT = "output.fault";
    
    public static final String EXCLUDED_IDS = "excluded.ids";
    
    public static final String LOG_FAULT_PROCESSING_TIME_THRESHOLD_SECS = "log.fault.processing.time.threshold.secs";
    
    public static final String INTERRUPT_PROCESSING_TIME_THRESHOLD_SECS = "interrupt.processing.time.threshold.secs";

    public static final String FAULT_CODE_PROCESSING_TIME_THRESHOLD_EXCEEDED = "ProcessingTimeThresholdExceeded";

    public static final String FAULT_SUPPLEMENTARY_DATA_PROCESSING_TIME = "processing_time";

    protected static final Logger log = Logger.getLogger(MetadataExtractorMapper.class);

    /**
     * Progress log interval.
     */
    private static final int PROGRESS_LOG_INTERVAL = 100;
    
    private static final long SECS_TO_MILLIS = 1000l;
    
    /**
     * Multiple outputs.
     */
    private MultipleOutputs mos;

    /**
     * Document metadata named output.
     */
    private String namedOutputMeta;

    /**
     * Fault named output.
     */
    private String namedOutputFault;

    /**
     * Current progress.
     */
    private int currentProgress = 0;

    /**
     * Interval time.
     */
    private long intervalTime = 0;

    /**
     * Processing timeout threshold, metadata extraction for given record will be interrupted when threshold exceeded.
     */
    private Integer interruptionTimeoutSecs;
    
    /**
     * Processing time threshold. When exceeded apropriate object will be
     * written to error datastore.
     */
    private long processingTimeThreshold = Long.MAX_VALUE;

    /**
     * Set of object identifiers objects excluded from processing.
     */
    private Set<String> excludedIds = Collections.emptySet();

    /**
     * Content approver module.
     */
    private ContentApprover contentApprover;
    
    /**
     * Hadoop counters enum of invalid records 
     */
    public static enum InvalidRecordCounters {
        INVALID_PDF_HEADER
    }
    
    private static final String invalidPdfHeaderMsg = "content PDF header not approved!";
    
    //------------------------ LOGIC --------------------------
    
    @Override
    protected void setup(Context context) throws IOException, InterruptedException {
        namedOutputMeta = context.getConfiguration().get(NAMED_OUTPUT_META);
        if (namedOutputMeta == null || namedOutputMeta.isEmpty()) {
            throw new RuntimeException("no named output provided for metadata");
        }
        namedOutputFault = context.getConfiguration().get(NAMED_OUTPUT_FAULT);
        if (namedOutputFault == null || namedOutputFault.isEmpty()) {
            throw new RuntimeException("no named output provided for fault");
        }

        String excludedIdsCSV = context.getConfiguration().get(EXCLUDED_IDS);
        if (excludedIdsCSV != null && !excludedIdsCSV.trim().isEmpty()
                && !WorkflowRuntimeParameters.UNDEFINED_NONEMPTY_VALUE.equals(excludedIdsCSV)) {
            log.info("got excluded ids: " + excludedIdsCSV);
            excludedIds = new HashSet<String>(Arrays.asList(StringUtils.split(excludedIdsCSV.trim(), ',')));
        } else {
            log.info("got no excluded ids");
        }
        // handling processing time threshold: interruption and fault logging
        interruptionTimeoutSecs = WorkflowRuntimeParameters.getIntegerParamValue(
                INTERRUPT_PROCESSING_TIME_THRESHOLD_SECS, context.getConfiguration());
        Integer processingTimeThresholdSecs = WorkflowRuntimeParameters.getIntegerParamValue(
                LOG_FAULT_PROCESSING_TIME_THRESHOLD_SECS, context.getConfiguration());
        if (processingTimeThresholdSecs != null) {
            this.processingTimeThreshold = SECS_TO_MILLIS * processingTimeThresholdSecs;
        }

        Counter invalidPdfCounter = context.getCounter(InvalidRecordCounters.INVALID_PDF_HEADER);
        invalidPdfCounter.setValue(0);
        this.contentApprover = new InvalidCountableContentApproverWrapper(new PDFHeaderBasedContentApprover(), invalidPdfCounter);
        
        mos = instantiateMultipleOutputs(context);
        currentProgress = 0;
        intervalTime = System.currentTimeMillis();
    }

    @Override
    public void cleanup(Context context) throws IOException, InterruptedException {
        mos.close();
    }
    
    /* (non-Javadoc)
     * @see org.apache.hadoop.mapreduce.Mapper#map(KEYIN, VALUEIN, org.apache.hadoop.mapreduce.Mapper.Context)
     */
    @Override
    public void map(AvroKey<DocumentContent> key, NullWritable ignore, Context context)
            throws IOException, InterruptedException {
        DocumentContent content = key.datum();
        String documentId = content.getId().toString();
        
        if (excludedIds.contains(documentId)) {
            log.info("skipping processing for excluded id " + documentId);
            return;
        }
        
        if (content.getPdf()!=null) {
            ByteBuffer byteBuffer = content.getPdf();
            if (byteBuffer.hasArray() && contentApprover.approve(byteBuffer.array())) {
                try (InputStream inputStream = new ByteBufferInputStream(byteBuffer)) {
                    processStream(documentId, inputStream);
                }    
            } else {
                log.info(invalidPdfHeaderMsg);
                handleException(new InvalidPdfException(invalidPdfHeaderMsg), content.getId().toString());
            }
        } else {
            log.warn("no byte data found for id: " + content.getId());
        }
    }
    
    /**
     * Instantiates {@link MultipleOutputs} instance.
     */
    protected MultipleOutputs instantiateMultipleOutputs(Context context) {
        return new MultipleOutputs(context);
    }
    
    /**
     * Processes content input stream. Does not close contentStream.
     * 
     * @param documentId document identifier
     * @param contentStream stream to be processed
     */
    protected void processStream(String documentId, InputStream contentStream) throws IOException, InterruptedException {
        currentProgress++;
        if (currentProgress % PROGRESS_LOG_INTERVAL == 0) {
            log.info("metadata extaction progress: " + currentProgress + ", time taken to process "
                    + PROGRESS_LOG_INTERVAL + " elements: " + ((System.currentTimeMillis() - intervalTime) / 1000)
                    + " secs");
            intervalTime = System.currentTimeMillis();
        }
        
        log.info("starting processing for id: " + documentId);
        long startTime = System.currentTimeMillis();
        
        try {
            ContentExtractor extractor = interruptionTimeoutSecs != null ? new ContentExtractor(interruptionTimeoutSecs)
                    : new ContentExtractor();
            extractor.setPDF(contentStream);
            handleContent(extractor, documentId);
        } catch (Exception e) {
            log.error((e.getCause() instanceof InvalidPdfException) ? "Invalid PDF file" 
                    : "got unexpected exception, just logging", e);
            handleException(e, documentId);
            return;
        }
        
        handleProcessingTime(System.currentTimeMillis() - startTime, documentId);
    }

    
    //------------------------ PRIVATE --------------------------
    
    /**
     * Extracts metadata and plaintext from content using extractor. Writes data to namedOutputMeta.
     * 
     * @param extractor content extractor holding PDF stream
     * @param documentId document identifier
     */
    private void handleContent(ContentExtractor extractor, String documentId) throws TimeoutException, AnalysisException, IOException, InterruptedException, TransformationException {
        Element resultElem = extractor.getContentAsNLM();
        Document doc = new Document(resultElem);
        String text = null;
        try {
            text = extractor.getRawFullText();
        } catch (AnalysisException e) {
            log.error("unable to extract plaintext, writing extracted metadata only", e);
        }
        mos.write(namedOutputMeta, new AvroKey<ExtractedDocumentMetadata>(
                NlmToDocumentWithBasicMetadataConverter.convertFull(documentId, doc, text)));
    }
    
    /**
     * Handles exception by converting it to {@link Fault} and writing it to fault output.
     * Empty {@link ExtractedDocumentMetadata} result is written to metadata output.
     * 
     * @param e Exception to be handled
     * @param documentId document identifier
     */
    private void handleException(Exception e, String documentId) throws IOException, InterruptedException {
        // writing empty result
        mos.write(namedOutputMeta, new AvroKey<ExtractedDocumentMetadata>(NlmToDocumentWithBasicMetadataConverter.createEmpty(documentId)));
        // writing fault result
        mos.write(namedOutputFault, new AvroKey<Fault>(FaultUtils.exceptionToFault(documentId, e, null)));
    }
    
    /**
     * Handles document processing time by writing fault when processing time exceeded predefined threshold.
     * @param processingTime processing time in milliseconds
     * @param documentId document identifier
     */
    private void handleProcessingTime(long processingTime, String documentId) throws IOException, InterruptedException {
        if (processingTime > processingTimeThreshold) {
            Map<CharSequence, CharSequence> supplementaryData = new HashMap<CharSequence, CharSequence>();
            supplementaryData.put(FAULT_SUPPLEMENTARY_DATA_PROCESSING_TIME, String.valueOf(processingTime));
            // writing fault result
            mos.write(namedOutputFault,
                    new AvroKey<Fault>(Fault.newBuilder().setInputObjectId(documentId)
                            .setTimestamp(System.currentTimeMillis())
                            .setCode(FAULT_CODE_PROCESSING_TIME_THRESHOLD_EXCEEDED)
                            .setSupplementaryData(supplementaryData).build()));
        }
        log.info("finished processing for id " + documentId + " in " + (processingTime / 1000) + " secs");
    }
    
}