TikaExtractor.java example

Explorer

Europeana-Cloud-master
- cassandra-connector
  - src
    - main
      - java
        eu
        europeana
        cloud
        cassandra
        CassandraConnectionProvider.java
        CassandraConnectionProviderSingleton.java
- common
  - src
    - main
      - java
        eu
        europeana
        cloud
        common
        exceptions
        GenericException.java
        NoAppropriateMessageProcessorException.java
        ProviderDoesNotExistException.java
        model
        CloudId.java
        CloudIdAndTimestampResponse.java
        CompoundDataSetId.java
        DataProvider.java
        DataProviderProperties.java
        DataSet.java
        DataSetRepresentationForLatestRevision.java
        File.java
        IdentifierErrorInfo.java
        LocalId.java
        Permission.java
        Record.java
        Representation.java
        RepresentationNames.java
        Revision.java
        User.java
        dps
        InformationTypes.java
        States.java
        SubTaskInfo.java
        TaskInfo.java
        TaskState.java
        response
        CloudTagsResponse.java
        CloudVersionRevisionResponse.java
        ErrorInfo.java
        RepresentationRevisionResponse.java
        ResultSlice.java
        selectors
        LatestPersistentRepresentationVersionSelector.java
        RepresentationSelector.java
        utils
        FileUtils.java
        FirstFlag.java
        RevisionUtils.java
        Tags.java
        UrlUtils.java
        web
        AASParamConstants.java
        ParamConstants.java
        UISParamConstants.java
        service
        mcs
        Storage.java
        messages
        AbstractMessage.java
        AddAssignmentMessage.java
        InsertRepresentationMessage.java
        InsertRepresentationPersistentMessage.java
        RemoveAssignmentMessage.java
        RemoveAssignmentsFromDataSetMessage.java
        RemoveRecordRepresentationsMessage.java
        RemoveRepresentationMessage.java
        RemoveRepresentationVersionMessage.java
    - test
      - java
        eu
        europeana
        cloud
        common
        selectors
        LatestPersistentRepresentationVersionSelectorTest.java
- incubation
  - index
    - src
      - main
        java
        eu
        europeana
        cloud
        service
        dps
        index
        Elasticsearch.java
        IndexFields.java
        Indexer.java
        IndexerFactory.java
        Solr.java
        StringJoiner.java
        SupportedIndexers.java
        Test.java
        exception
        ConnectionException.java
        IndexerException.java
        ParseDataException.java
        structure
        IndexedDocument.java
        IndexerInformations.java
        SearchHit.java
        SearchResult.java
      - test
        java
        eu
        europeana
        cloud
        service
        dps
        index
        ElasticsearchTest.java
        SolrTest.java
  - similarity
    - src
      - main
        java
        eu
        europeana
        cloud
        service
        dps
        similarity
        SimilarityService.java
  - storm
    - topologies
      - extract_and_index
        src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        topologies
        extractandindex
        ExtractAndIndexConstants.java
        ExtractAndIndexTopology.java
      - indexer
        src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        topologies
        indexer
        IndexBolt.java
        IndexerConstants.java
        IndexerTopology.java
        MergeIndexedDocumentsBolt.java
      - text
        src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        topologies
        text
        ExtractTextBolt.java
        TextStrippingConstants.java
        TextStrippingTopology.java
        test
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        topologies
        text
        ExtractBoltTest.java
        TopologyTest.java
    - transform
      - text
        src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        transform
        text
        MethodsEnumeration.java
        SupportedRepresentations.java
        TextExtractor.java
        TextExtractorFactory.java
        edm
        EdmExtractionMethods.java
        JibxExtractor.java
        oai
        DcExtractor.java
        OaiExtractionMethods.java
        pdf
        PdfBoxExtractor.java
        PdfExtractionMethods.java
        TikaExtractor.java
        txt
        ReadFileExtractor.java
        TxtExtractionMethods.java
        test
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        transform
        text
        FactoryTest.java
        SupportedRepresentationsTest.java
        edm
        EdmExtractorsTest.java
        JibxExtractionTest.java
        oai
        DcExtractionTest.java
        OaiExtractorsTest.java
        pdf
        PdfBoxExtractionTest.java
        PdfExtractorsTest.java
        TikaExtractionTest.java
        txt
        ReadFileExtractionTest.java
- service
  - aas
    - authentication
      - src
        main
        java
        eu
        europeana
        cloud
        service
        aas
        authentication
        AuthenticationService.java
        CassandraAuthenticationService.java
        SpringUser.java
        SpringUserUtils.java
        exception
        DatabaseConnectionException.java
        InvalidPasswordException.java
        InvalidUsernameException.java
        UserDoesNotExistException.java
        UserExistsException.java
        handlers
        CloudAuthenticationEntryPoint.java
        CloudAuthenticationSuccessHandler.java
        repository
        CassandraUserDAO.java
        status
        IdentifierErrorTemplate.java
        test
        java
        eu
        europeana
        cloud
        service
        aas
        authentication
        CassandraAuthenticationServiceTest.java
        CassandraTestBase.java
        CassandraUserDAOTest.java
    - authorization
      - src
        main
        java
        eu
        europeana
        aas
        acl
        CassandraAclService.java
        CassandraMutableAclService.java
        model
        AclEntry.java
        AclObjectIdentity.java
        repository
        AclRepository.java
        CassandraAclRepository.java
        exceptions
        AclAlreadyExistsException.java
        AclNotFoundException.java
        test
        java
        eu
        europeana
        aas
        acl
        CassandraAclServiceTest.java
        CassandraAclServiceTestAdvanced.java
        CassandraTestBase.java
        repository
        CassandraAclRepositoryTest.java
    - rest
      - src
        main
        java
        eu
        europeana
        cloud
        service
        aas
        rest
        AuthenticationResource.java
        JerseyConfig.java
        exception
        AASExceptionMapper.java
        DatabaseConnectionExceptionMapper.java
        InvalidPasswordExceptionMapper.java
        InvalidUsernameExceptionMapper.java
        UserDoesNotExistExceptionMapper.java
        UserExistsExceptionMapper.java
        test
        java
        eu
        europeana
        cloud
        service
        aas
        rest
        ApplicationContextUtils.java
        AuthenticationResourceTest.java
    - rest-client-java
      - src
        main
        java
        eu
        europeana
        cloud
        client
        aas
        rest
        AASClient.java
        CloudException.java
        test
        java
        eu
        europeana
        cloud
        client
        aas
        rest
        web
        AASClientTest.java
  - commons
    - src
      - main
        java
        eu
        europeana
        cloud
        service
        commons
        logging
        LoggerUpdater.java
        LoggingConfigurator.java
        LoggingFilter.java
        LoggingMessage.java
        LoggingMessageBuilder.java
        SimpleLoggingConfigurator.java
        ZookeeperLoggingConfigurator.java
        permissions
        PermissionsGrantingManager.java
        urls
        UrlBuilder.java
        UrlBuilderException.java
        UrlParser.java
        UrlPart.java
      - test
        java
        eu
        europeana
        cloud
        service
        commons
        LoggerUpdaterTest.java
        PermissionGrantingManagerTest.java
        UrlParserTest.java
        cassandra
        CassandraTestBase.java
  - cos
    - src
      - main
        java
        eu
        europeana
        cloud
        service
        coordination
        ServiceProperties.java
        ZookeeperService.java
        configuration
        ConfigurationLoader.java
        DynamicPropertyListener.java
        DynamicPropertyManager.java
        ZookeeperDynamicPropertyManager.java
        discovery
        EcloudServiceDiscovery.java
        ZookeeperServiceDiscovery.java
        provider
        ServiceProvider.java
        ServiceProviderImpl.java
        registration
        EcloudServiceAdvertiser.java
        ZookeeperServiceAdvertiser.java
  - dls
    - src
      - main
        java
        eu
        europeana
        cloud
        service
        dls
        RepresentationSearchParams.java
        kafka
        CustomerWrapper.java
        Dispatcher.java
        KafkaMessageListener.java
        MessageDispatcher.java
        listeners
        AllDataSetAssignmentsRemovedMessageProcessor.java
        AllRecordRepresentationsRemovedMessageProcessor.java
        AssignmentAddedMessageProcessor.java
        AssignmentRemovedMessageProcessor.java
        MessageProcessor.java
        RepresentationRemovedMessageProcessor.java
        RepresentationVersionAddedMessageProcessor.java
        RepresentationVersionAddedPersistentMessageProcessor.java
        RepresentationVersionRemovedMessageProcessor.java
        rest
        JerseyConfig.java
        RepresentationSearchResource.java
        services
        SearchRecordService.java
        solr
        RepresentationSolrDocument.java
        SolrConnectionProvider.java
        SolrConnectionProviderImpl.java
        SolrDAO.java
        SolrFields.java
        exception
        SolrDocumentNotFoundException.java
        SystemException.java
        mock_impl
        EmbeddedSolrConnectionProvider.java
      - test
        java
        eu
        europeana
        cloud
        service
        dls
        ApplicationContextUtils.java
        TestUtil.java
        kafka
        KafkaMessageListenerTest.java
        MessageDispatherTest.java
        listeners
        AllDataSetAssignmentsRemovedMessageProcessorTest.java
        AllRecordRepresentationsRemovedMessageProcessorTest.java
        AssignmentAddedMessageProcessorTest.java
        AssignmentRemovedMessageProcessorTest.java
        RepresentationRemovedMessageProcessorTest.java
        RepresentationVersionAddedMessageProcessorTest.java
        RepresentationVersionAddedPersistentMessageProcessorTest.java
        RepresentationVersionRemovedMessageProcessorTest.java
        rest
        RepresentationSearchTest.java
        solr
        SolrDAOSearchTest.java
        SolrDAOTest.java
        SolrTest.java
  - dps
    - api
      - src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        DpsTask.java
        PluginParameterKeys.java
        TaskExecutionKillService.java
        TaskExecutionReportService.java
        TaskExecutionSubmitService.java
        exception
        AccessDeniedOrObjectDoesNotExistException.java
        AccessDeniedOrTopologyDoesNotExistException.java
        DatabaseConnectionException.java
        DpsException.java
        TaskInfoDoesNotExistException.java
        TopologyAlreadyExistsException.java
        status
        DpsErrorCode.java
        util
        LRUCache.java
    - cassandra
      - src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        service
        cassandra
        CassandraReportService.java
        CassandraTablesAndColumnsNames.java
    - kafka-service
      - src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        service
        kafka
        KafkaDpsService.java
        KafkaSubmitService.java
        util
        JsonEncoder.java
    - rest
      - src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        ApplicationContextUtils.java
        rest
        JerseyConfig.java
        TopologiesResource.java
        TopologyTasksResource.java
        exceptionmappers
        AccessDeniedOrTopologyDoesNotExistExceptionExceptionMapper.java
        DpsTaskValidationExceptionMapper.java
        RuntimeExceptionMapper.java
        TaskSubmissionExceptionMapper.java
        TopologyAlreadyExistsExceptionMapper.java
        UnitedExceptionMapper.java
        exceptions
        TaskSubmissionException.java
        utils
        DpsTaskValidatorFactory.java
        PermissionManager.java
        files
        counter
        DatasetFilesCounter.java
        FilesCounter.java
        FilesCounterFactory.java
        RecordFilesCounter.java
        test
        java
        eu
        europeana
        cloud
        service
        dps
        rest
        AbstractSecurityTest.java
        CassandraAATestRunner.java
        DpsResourceAATest.java
        TopologiesResourceAATest.java
        TopologyTasksResourceTest.java
    - rest-client-java
      - src
        main
        java
        eu
        europeana
        cloud
        client
        dps
        rest
        DpsClient.java
        test
        java
        eu
        europeana
        cloud
        client
        dps
        rest
        DPSClientTest.java
    - storm
      - common
        src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        AbstractDpsBolt.java
        NotificationBolt.java
        NotificationParameterKeys.java
        NotificationTuple.java
        ParseTaskBolt.java
        ProgressBolt.java
        StormTaskTuple.java
        StormTupleKeys.java
        logging
        SimpleLoggingMetricsConsumer.java
        metrics
        PersistentCountMetric.java
        ZookeeperMultiCountMetric.java
        topologies
        properties
        PropertyFileLoader.java
        TopologyPropertyKeys.java
        utils
        CassandraDAO.java
        CassandraSubTaskInfoDAO.java
        CassandraTaskInfoDAO.java
        TaskTupleUtility.java
        TestConstantsHelper.java
        TopologyHelper.java
        test
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        NotificationBoltTest.java
        topologies
        properties
        PropertyFileLoaderTest.java
        utils
        CassandraTestBase.java
        TaskTupleUtilityTest.java
      - examples
        src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        examples
        StaticDpsTaskSpout.java
        tutorial
        ConvertBolt.java
        ConvertTopology.java
        MyBolt.java
        TopologyConstants.java
        util
        DpsTaskUtil.java
        xslt
        DatasetXSLTTaskProducer.java
        KafkaDatasetXSLTTaskProducer.java
        KafkaXSLTTaskProducer.java
        KafkaXSLTTaskProducerWithOutputURL.java
        ic
        topology
        StaticICTopology.java
        xslt
        kafka
        bolts
        KafkaParseTaskBolt.java
        producers
        KafkaTaskProducer.java
        topologies
        StaticXsltTopology.java
        StaticXsltTopologyWithKafkaMetrics.java
        StaticXsltTopologyWithMetrics.java
        StaticXsltTopologyWithProgressReport.java
        StaticXsltTopologyWithSimpleMetrics.java
      - io
        src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        io
        AddResultToDataSetBolt.java
        ReadDatasetBolt.java
        ReadDatasetsBolt.java
        ReadFileBolt.java
        ReadRepresentationBolt.java
        StoreFileAsRepresentationBolt.java
        WriteRecordBolt.java
      - kafka
        src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        kafka
        JsonEncoder.java
        KafkaMetricsConsumer.java
        KafkaProducerBolt.java
      - topologies
        ic
        converter
        src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        topologies
        ic
        converter
        command
        CommandBuilder.java
        CommandBuilderContext.java
        ImageMagicConvertCommandBuilder.java
        KakaduCompressCommandBuilder.java
        common
        Extension.java
        converter
        ConsoleBasedConverter.java
        Converter.java
        ConverterContext.java
        ImageMagicJPGToTiff.java
        KakaduConverterTiffToJP2.java
        exceptions
        ConversionException.java
        ICSException.java
        UnexpectedExtensionsException.java
        extension
        ExtensionChecker.java
        ExtensionCheckerContext.java
        JP2ExtensionChecker.java
        JPGExtensionChecker.java
        TiffExtensionChecker.java
        utlis
        CommandExecutor.java
        ExtensionHelper.java
        ImageMagicHelper.java
        KakaduHelper.java
        test
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        topologies
        ic
        converter
        common
        ExtensionTest.java
        extension
        ExtensionCheckerContextTest.java
        utils
        ExtensionHelperTest.java
        ImageMagicHelperTest.java
        KakaduHelperTest.java
        ic-topology
        src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        topologies
        ic
        topology
        ICTopology.java
        api
        ImageConverterService.java
        ImageConverterServiceImpl.java
        bolt
        IcBolt.java
        util
        ImageConverterUtil.java
        test
        java
        eu
        europeana
        cloud
        ICTestMocksHelper.java
        ICTopologyTest.java
        bolts
        ReadDatasetsBoltTest.java
        TestInspectionBolt.java
        TestSpout.java
        service
        dps
        storm
        io
        AddResultToDataSetBoltTest.java
        ReadDataSetBoltTest.java
        ReadRepresentationBoltTest.java
        topologies
        ic
        topology
        api
        ImageConverterServiceImplTest.java
        xslt
        src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        topologies
        xslt
        XSLTTopology.java
      - transform
        xslt
        src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        xslt
        XsltBolt.java
        test
        java
        eu
        europeana
        cloud
        service
        dps
        storm
        xslt
        XsltUtilTest.java
    - utils
      - src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        service
        utils
        TopologyManager.java
        validation
        DpsTaskValidationException.java
        DpsTaskValidator.java
        InputDataValueType.java
        test
        java
        eu
        europeana
        cloud
        service
        dps
        service
        utils
        DpsTaskValidatorTest.java
        TopologyManagerTest.java
    - zoo-service
      - src
        main
        java
        eu
        europeana
        cloud
        service
        dps
        service
        zoo
        ZookeeperKillService.java
        ZookeeperReportService.java
  - ips
    - src
      - main
        java
        eu
        europeana
        cloud
        service
        ips
        ImageTranslator.java
        rest
        ImagesResource.java
        JerseyConfig.java
        ViewResource.java
      - test
        java
        eu
        europeana
        cloud
        service
        ips
        ApplicationContextUtils.java
        ImageTranslatorTest.java
        rest
        ImagesResourceTest.java
  - mcs
    - api
      - src
        main
        java
        eu
        europeana
        cloud
        service
        mcs
        DataSetService.java
        RecordService.java
        RepresentationSearchParams.java
        UISClientHandler.java
        exception
        AccessDeniedOrObjectDoesNotExistException.java
        CannotModifyPersistentRepresentationException.java
        CannotPersistEmptyRepresentationException.java
        DataSetAlreadyExistsException.java
        DataSetNotExistsException.java
        FileAlreadyExistsException.java
        FileContentHashMismatchException.java
        FileNotExistsException.java
        MCSException.java
        ProviderNotExistsException.java
        RecordNotExistsException.java
        RepresentationAlreadyInSet.java
        RepresentationNotExistsException.java
        RevisionIsNotValidException.java
        RevisionNotExistsException.java
        VersionNotExistsException.java
        WrongContentRangeException.java
        status
        McsErrorCode.java
    - driver
      - src
        main
        java
        eu
        europeana
        cloud
        mcs
        driver
        DataSetIterator.java
        DataSetServiceClient.java
        FileServiceClient.java
        MCSClient.java
        MCSExceptionProvider.java
        RecordServiceClient.java
        RepresentationIterator.java
        RevisionServiceClient.java
        exception
        DriverException.java
        filter
        ECloudBasicAuthFilter.java
        test
        java
        eu
        europeana
        cloud
        mcs
        driver
        DataSetServiceClientTest.java
        FileServiceClientTest.java
        MCSExceptionProviderTest.java
        RecordServiceClientTest.java
        RevisionServiceClientTest.java
        TestUtils.java
    - inmemory
      - src
        main
        java
        eu
        europeana
        cloud
        service
        mcs
        inmemory
        InMemoryContentDAO.java
        InMemoryDataSetDAO.java
        InMemoryDataSetService.java
        InMemoryRecordDAO.java
        InMemoryRecordService.java
        test
        java
        eu
        europeana
        cloud
        service
        mcs
        inmemory
        InMemoryDataSetServiceTest.java
        InMemoryRecordServiceTest.java
    - persistent
      - src
        main
        java
        eu
        europeana
        cloud
        service
        mcs
        kafka
        CustomPartitioner.java
        ProducerWrapper.java
        mock_impl
        AlwaysSuccessfulUISClientHandler.java
        persistent
        CassandraDataSetService.java
        CassandraRecordService.java
        DynamicContentDAO.java
        SolrRepresentationIndexer.java
        aspects
        ServiceExceptionTranslator.java
        cassandra
        CassandraContentDAO.java
        CassandraDataSetDAO.java
        CassandraRecordDAO.java
        StreamCompressor.java
        exception
        ContentDaoNotFoundException.java
        SolrDocumentNotFoundException.java
        SwiftConnectionException.java
        SystemException.java
        swift
        ContentDAO.java
        PutResult.java
        SimpleSwiftConnectionProvider.java
        SwiftConnectionProvider.java
        SwiftContentDAO.java
        ZookeeperSwiftConnectionProvider.java
        uis
        UISClientHandlerImpl.java
        util
        QueryTracer.java
        test
        java
        eu
        europeana
        cloud
        service
        mcs
        persistent
        CassandraDataSetDAOTest.java
        CassandraDataSetServiceTest.java
        CassandraRecordServiceTest.java
        CassandraSwiftInteractionsTest.java
        CassandraTestBase.java
        DynamicContentDAOTest.java
        SolrRepresentationIndexerTest.java
        TestUtil.java
        aspects
        ServiceExceptionTranslatorAspectTest.java
        cassandra
        CassandraContentDAOTest.java
        FileDeserializationTest.java
        StreamCompressorTest.java
        swift
        ContentDAOTest.java
        SwiftContentDAOTest.java
        uis
        UISHandlerTest.java
    - rest
      - src
        main
        java
        eu
        europeana
        cloud
        service
        mcs
        rest
        DataSetAssignmentsResource.java
        DataSetResource.java
        DataSetRevisionsResource.java
        DataSetsResource.java
        EnrichUriUtil.java
        FileResource.java
        FileUploadResource.java
        FilesResource.java
        JerseyConfig.java
        ParamUtil.java
        RecordsResource.java
        RepresentationAuthorizationResource.java
        RepresentationResource.java
        RepresentationRevisionsResource.java
        RepresentationVersionResource.java
        RepresentationVersionsResource.java
        RepresentationsResource.java
        RevisionResource.java
        SimplifiedFileAccessResource.java
        SimplifiedRecordsResource.java
        SimplifiedRepresentationResource.java
        exceptionmappers
        AccessDeniedOrObjectDoesNotExistExceptionMapper.java
        CannotModifyPersistentRepresentationExceptionMapper.java
        CannotPersistEmptyRepresentationExceptionMapper.java
        DataSetAlreadyExistsExceptionMapper.java
        DataSetNotExistsExceptionMapper.java
        FileAlreadyExistsExceptionMapper.java
        FileNotExistsExceptionMapper.java
        ProviderNotExistsExceptionMapper.java
        RecordNotExistsExceptionMapper.java
        RepresentationNotExistsExceptionMapper.java
        RevisionIsNotValidExceptionMapper.java
        RevisionNotExistsExceptionMapper.java
        RuntimeExceptionMapper.java
        UnitedExceptionMapper.java
        VersionNotExistsExceptionMapper.java
        WebApplicationExceptionMapper.java
        WrongContentRangeExceptionMapper.java
        storage
        selector
        ContentStreamDetector.java
        PreBufferedInputStream.java
        StorageSelector.java
        test
        java
        eu
        europeana
        cloud
        service
        mcs
        ApplicationContextUtils.java
        rest
        ContentRangeTest.java
        DataSetAssignmentResourceTest.java
        DataSetResourceTest.java
        DataSetRevisionTimeStampResourceTest.java
        DataSetRevisionsResourceTest.java
        DataSetsResourceTest.java
        FileResourceTest.java
        FileUploadResourceTest.java
        FilesResourceTest.java
        Helper.java
        HugeFileResourceDownloadIT.java
        HugeFileResourceUploadIT.java
        RecordsResourceTest.java
        RepresentationAuthorizationResourceAATest.java
        RepresentationResourceTest.java
        RepresentationRevisionsResourceTest.java
        RepresentationVersionResourceTest.java
        RepresentationVersionsResourceTest.java
        RepresentationsResourceTest.java
        RevisionResourceTest.java
        SimplifiedFileAccessResourceTest.java
        SimplifiedRecordsResourceTest.java
        SimplifiedRepresentationResourceTest.java
        URITools.java
        UncauchtExceptionMapperTest.java
        aatests
        DataSetsAATest.java
        FilesAATest.java
        RecordResourceAATest.java
        RepresentationAATest.java
        storage
        selector
        ContentStreamDetectorTest.java
        PreBufferedInputStreamTest.java
        StorageSelectorTest.java
        test
        AbstractSecurityTest.java
        CassandraAATestRunner.java
        CassandraParamertizedTestRunner.java
        CassandraTestRunner.java
    - utils
      - src
        main
        java
        eu
        europeana
        cloud
        service
        mcs
        cleaner
        MCSCleaner.java
  - uis
    - api
      - src
        main
        java
        eu
        europeana
        cloud
        service
        uis
        DataProviderService.java
        UniqueIdentifierService.java
        encoder
        IdGenerator.java
        exception
        CloudIdAlreadyExistException.java
        CloudIdDoesNotExistException.java
        DatabaseConnectionException.java
        IdHasBeenMappedException.java
        ProviderAlreadyExistsException.java
        RecordDatasetEmptyException.java
        RecordDoesNotExistException.java
        RecordExistsException.java
        RecordIdDoesNotExistException.java
        status
        IdentifierErrorTemplate.java
        test
        java
        eu
        europeana
        cloud
        service
        uis
        IdGeneratorTest.java
    - inmemory
      - src
        main
        java
        eu
        europeana
        cloud
        service
        uis
        InMemoryDataProviderService.java
        InMemoryUniqueIdentifierService.java
        dao
        InMemoryCloudIdDao.java
        InMemoryCloudObject.java
        InMemoryDataProviderDAO.java
        InMemoryLocalIdDao.java
        test
        java
        eu
        europeana
        ecloud
        service
        uis
        InMemoryDataProvidersServiceTest.java
        InMemoryUniqueIdentifierServiceTest.java
    - persistent
      - src
        main
        java
        eu
        europeana
        cloud
        service
        uis
        persistent
        CassandraDataProviderService.java
        CassandraUniqueIdentifierService.java
        dao
        CassandraCloudIdDAO.java
        CassandraDataProviderDAO.java
        CassandraLocalIdDAO.java
        util
        DatabaseTruncateUtil.java
        test
        java
        eu
        europeana
        cloud
        service
        uis
        persistent
        CassandraDataProviderServiceTest.java
        CassandraTestBase.java
        CassandraUniqueIdentifierServiceTest.java
        dao
        CassandraCloudIdDAOTest.java
    - registration
      - src
        main
        java
        eu
        europeana
        cloud
        service
        uis
        registration
        ZookeeperService.java
        ZookeeperServiceAdvertiser.java
    - rest
      - src
        main
        java
        eu
        europeana
        cloud
        service
        uis
        exception
        CloudIdAlreadyExistExceptionMapper.java
        CloudIdDoesNotExistExceptionMapper.java
        DatabaseConnectionExceptionMapper.java
        IdHasBeenMappedExceptionMapper.java
        ProviderAlreadyExistsExceptionMapper.java
        ProviderDoesNotExistExceptionMapper.java
        RecordDatasetEmptyExceptionMapper.java
        RecordDoesNotExistExceptionMapper.java
        RecordExistsExceptionMapper.java
        RecordIdDoesNotExistExceptionMapper.java
        RuntimeExceptionMapper.java
        UISExceptionMapper.java
        WebApplicationsExceptionMapper.java
        rest
        DataProviderActivationResource.java
        DataProviderResource.java
        DataProvidersResource.java
        EnrichUriUtil.java
        JerseyConfig.java
        UniqueIdentifierResource.java
        test
        java
        eu
        europeana
        cloud
        service
        uis
        ApplicationContextUtils.java
        DataProviderActivationResourceTest.java
        DataProviderResourceTest.java
        DataProvidersResourceTest.java
        UniqueIdentifierResourceTest.java
        security
        AbstractSecurityTest.java
        CassandraTestBase.java
        DataProviderAATest.java
        UisAATest.java
    - rest-client-java
      - src
        main
        java
        eu
        europeana
        cloud
        client
        uis
        rest
        CloudException.java
        UISClient.java
        console
        App.java
        Client.java
        commands
        Command.java
        CreateCloudIdBatchCommand.java
        CreateCloudIdBatchWithGenerationCommand.java
        CreateCloudIdCommand.java
        CreateMappingCommand.java
        DeleteCloudIdCommand.java
        GetCloudIdCommand.java
        GetCloudIdsByProviderCommand.java
        GetCloudIdsByProviderWithPaginationCommand.java
        GetRecordIdsByProviderCommand.java
        GetRecordIdsByProviderWithPaginationCommand.java
        GetRecordIdsCommand.java
        HelpCommand.java
        RemoveMappingByLocalIdCommand.java
        tests
        TestCreateMappingIdManyProvidersCommand.java
        TestCreateMappingIdOneProviderCommand.java
        TestDeleteCommand.java
        TestReadManyProvidersCommand.java
        TestReadOneProviderCommand.java
        TestReadWriteManyProvidersCommand.java
        TestReadWriteManyProvidersWithIdCommand.java
        TestReadWriteOneProviderCommand.java
        TestReadWriteOneProviderWithIdCommand.java
        TestRetrieveCloudIdCommand.java
        TestRetrieveCloudIdNoPaginationCommand.java
        TestRetrieveCloudIdWithPaginationCommand.java
        TestRetrieveLocalIdNoPaginationCommand.java
        TestRetrieveLocalIdWithPaginationCommand.java
        web
        DynamicUrlProvider.java
        StaticUrlProvider.java
        UrlProvider.java
        zookeeper
        ServiceFinder.java
        ZookeeperService.java
        test
        java
        eu
        europeana
        cloud
        client
        uis
        rest
        web
        StaticUrlProviderTest.java
        UISClientTest.java
    - utils
      - src
        main
        java
        eu
        europeana
        cloud
        database
        truncate
        TruncateApp.java
        Truncator.java
        context
        ApplicationContextUtils.java
- test-common
  - src
    - main
      - java
        eu
        europeana
        cloud
        test
        CassandraTestInstance.java
- tools
  - dbMigrations
    - src
      - main
        java
        migrations
        common
        CopyTable.java
        service
        mcs
        V1__Initial_MCS.java
        V2_1__addTemporaryTable_data_set_assignments_MCS.java
        V2_2__copyDataToTemporaryTable___data_set_assignments_MCS.java
        V2_3__changeSchmaTable___data_set_assignments_MCS.java
        V2_4__copyDataFromTemporaryTable___data_set_assignments_MCS.java
        V2_5__dropTemporaryTable___data_set_assignments_MCS.java
        V2_6__create___data_set_assignments_by_revision_id_MCS.java
        V2_7__create___latest_provider_dataset_representation_revision_MCS.java
        migrator
        CliOptions.java
        MigrationExecutor.java
        Migrator.java
      - test
        java
        migrator
        EmbeddedCassandra.java
        MigrationExecutorTest.java
        testMigrations
        mcs
        V1_1__Add_MCS.java
  - ecloud-db-migrator
    - src
      - main
        java
        migrations
        common
        TableCopier.java
        service
        aas
        V1
        V1__Initial_AAS.java
        dps
        V1
        V1__Initial_DPS.java
        mcs
        V1
        V1__Initial_MCS.java
        V2
        V2_1__create___data_set_representation_names_id_MCS.java
        V3
        V3_1__addTemporaryTable_data_set_assignments_MCS.java
        V3_2__DataToTemporaryTable___Copier___data_set_assignments_MCS.java
        V3_3__changeSchmaTable___data_set_assignments_MCS.java
        V3_4__DataFromTemporaryTable___Copier___data_set_assignments_MCS.java
        V3_5__dropTemporaryTable___data_set_assignments_MCS.java
        V4
        V4_1__create___data_set_assignments_by_revision_id_MCS.java
        V5
        V5_1__create_latest_revisions_for_dataset_assignment_table.java
        uis
        V1
        V1__Initial_UIS.java
        migrator
        CliOptions.java
        MigrationExecutor.java
        Migrator.java
      - test
        java
        migrator
        EmbeddedCassandra.java
        MigrationExecutorTest.java
        testMigrations
        mcs
        V1_1__Add_MCS.java
  - ecloud-dlf-ingestion-tool
    - src
      - main
        java
        eu
        europeana
        cloud
        dlf
        ingestion
        tool
        App.java
        DLFMigrator.java
  - ecloud-swift-migration-tool
    - EuropeanaSwiftMigrate
      - src
        main
        java
        eu
        europeana
        cloud
        swiftmigrate
        CliOptions.java
        CustomFileNameMigrator.java
        Migrator.java
        SwiftMigrationDAO.java
        SwiftMigrator.java
        multitread
        CopyFileJob.java
        JobsController.java
        test
        java
        eu
        europeana
        cloud
        swiftmigrate
        CustomFileNameMigratorTest.java
  - records-downloader-tool
    - src
      - main
        java
        eu
        europeana
        cloud
        EuropeanaRecordsDownloaderTool.java
        downloader
        FileDownloaderJob.java
        RecordDownloader.java
        exception
        RepresentationNotFoundException.java
        util
        CommandLineHelper.java
        FileUtil.java
        FolderCompressor.java
        MimeTypeHelper.java
      - test
        java
        eu
        europeana
        cloud
        TestConstantsHelper.java
        downloader
        RecordDownloaderTest.java
        util
        FileUtilTest.java
        FolderCompressorTest.java
  - resource-migration-tool
    - src
      - main
        java
        eu
        europeana
        cloud
        migrator
        ResourceMigrator.java
        ResourceMigratorApp.java
        processing
        CommandExecutor.java
        CommandResult.java
        FileProcessor.java
        FileProcessorFactory.java
        JPEG2JP2000Converter.java
        provider
        Cleaner.java
        DefaultResourceProvider.java
        EuropeanaNewspapersResourceProvider.java
        FilePaths.java
        FoodAndDrinkResourceProvider.java
        ResourceProvider.java
        RoyalArmoryResourceProvider.java
        StandardResourceProvider.java
      - test
        java
        eu
        europeana
        cloud
        migrator
        EuropeanaNewspapersResourceProviderTest.java
        FoodAndDrinkResourceProviderTest.java
        JPEG2JP2000ConverterTest.java
        RoyalArmoryResourceProviderTest.java
- usecases-integration
  - src
    - main
      - java
        eu
        europeana
        cloud
        integration
        usecases
        DatasetHelper.java
        IntegrationConstants.java
        TestCase.java
        TestHelper.java
    - test
      - java
        eu
        europeana
        cloud
        integration
        UseCasesIT.java
        usecases
        ActiveRecordsTestCase.java
        CreateDatasetFromDatasetOfAnotherProviderTestCase.java
        IncrementalExecutionTestCase.java
        RepresentationRevisionFilesTestCase.java
        UpdateDatasetTestCase.java

package eu.europeana.cloud.service.dps.storm.transform.text.pdf;

import eu.europeana.cloud.service.dps.storm.transform.text.TextExtractor;
import java.io.IOException;
import java.io.InputStream;
import java.util.HashMap;
import java.util.Map;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.xml.sax.SAXException;

/**
 * Text extractor for PDF files that uses the Apache Tika toolkit
 * @author Pavel Kefurt <Pavel.Kefurt@gmail.com>
 */
public class TikaExtractor implements TextExtractor
{
    private static final Logger LOGGER = LoggerFactory.getLogger(TikaExtractor.class);
    
    private Metadata metadata;
    
    @Override
    public String extractText(InputStream is) 
    {
        if(is == null)
        {
            LOGGER.warn("No data for extraction.");
            return null;
        }
        
        BodyContentHandler handler = new BodyContentHandler(-1);    // -1 to disable the write limit
        metadata = new Metadata();
        ParseContext pcontext = new ParseContext();
        PDFParser pdfparser = new PDFParser(); 
        
        try 
        {
            pdfparser.parse(is, handler, metadata,pcontext);
        } 
        catch (IOException | SAXException | TikaException ex) 
        {
          LOGGER.warn("Can not extract text from pdf because: " + ex.getMessage()); 
          return null;
        }
        
        return handler.toString();
    }

    @Override
    public PdfExtractionMethods getExtractionMethod() 
    {
        return PdfExtractionMethods.TIKA_EXTRACTOR;
    }

    @Override
    public Map<String, String> getExtractedMetadata() 
    {
        if(metadata == null)
        {
            return null;
        }
        
        Map<String, String> ret = new HashMap<>();
        for (String name : metadata.names())
        {
            ret.put(name, metadata.get(name));
        }
        
        return ret;
    }   

    @Override
    public String getRepresentationName() 
    {
        return "text-from-pdf";
    }
}