PdfTextExtractor.java example

Explorer

knowledge_vault-master
- kv5.1.8_oct5.0
  - src
    - main
      - java
        com
        openkm
        analysis
        FilenameAnalyzer.java
        FilenameTokenizer.java
        SpanishAnalyzer.java
        SpanishStemFilter.java
        api
        OKMAuth.java
        OKMBookmark.java
        OKMDashboard.java
        OKMDocument.java
        OKMFolder.java
        OKMMail.java
        OKMNote.java
        OKMNotification.java
        OKMProperty.java
        OKMPropertyGroup.java
        OKMRepository.java
        OKMScripting.java
        OKMSearch.java
        OKMStats.java
        OKMUserConfig.java
        OKMWorkflow.java
        bean
        AppVersion.java
        ContentInfo.java
        DashboardDocumentResult.java
        DashboardFolderResult.java
        DashboardMailResult.java
        Document.java
        Encryption.java
        ExecutionResult.java
        Folder.java
        FormField.java
        HttpSessionInfo.java
        JcrSessionInfo.java
        Lock.java
        LogMessage.java
        Mail.java
        Note.java
        Notification.java
        Permission.java
        Property.java
        PropertyGroup.java
        QueryResult.java
        Repository.java
        ResultSet.java
        Scripting.java
        StatsInfo.java
        StoredFile.java
        Version.java
        cache
        NodePermissions.java
        form
        Button.java
        CheckBox.java
        Download.java
        FormElement.java
        Input.java
        Node.java
        Option.java
        Print.java
        Select.java
        Separator.java
        SuggestBox.java
        Text.java
        TextArea.java
        Upload.java
        Validator.java
        kea
        MetadataDTO.java
        Term.java
        workflow
        Comment.java
        ProcessDefinition.java
        ProcessInstance.java
        TaskInstance.java
        Token.java
        Transition.java
        cache
        NodePermissionsManager.java
        OKMAccessManager.java
        UserDocumentKeywordsManager.java
        UserItemsManager.java
        core
        AccessDeniedException.java
        Config.java
        ConversionException.java
        Cron.java
        DataStoreGarbageCollector.java
        DatabaseException.java
        FileSizeExceededException.java
        FileWatchdog.java
        HttpSessionManager.java
        ItemExistsException.java
        JcrSessionManager.java
        LockException.java
        NoSuchGroupException.java
        NoSuchPropertyException.java
        OKMAccessManager.java
        OKMEventListener.java
        OKMLoginModule.java
        OKMSystemSession.java
        ParseException.java
        PathNotFoundException.java
        Ref.java
        RepositoryException.java
        RepositoryInfo.java
        ResourceClassLoader.java
        SearchException.java
        UnsupportedMimeTypeException.java
        UpdateInfo.java
        UserMailImporter.java
        UserQuotaExceededException.java
        VersionException.java
        VirusDetectedException.java
        VirusDetection.java
        Watchdog.java
        WorkflowException.java
        dao
        ActivityDAO.java
        AuthDAO.java
        BookmarkDAO.java
        ConfigDAO.java
        CronTabDAO.java
        DashboardDAO.java
        DatabaseMetadataDAO.java
        DocumentFilterDAO.java
        HibernateUtil.java
        KeyValueDAO.java
        LanguageDAO.java
        LegacyDAO.java
        LockTokenDAO.java
        MailAccountDAO.java
        MimeTypeDAO.java
        ProfileDAO.java
        QueryParamsDAO.java
        ReportDAO.java
        SchemaUpdate.java
        TwitterAccountDAO.java
        UserConfigDAO.java
        UserDocumentKeywordsDAO.java
        UserItemsDAO.java
        bean
        Activity.java
        ActivityFilter.java
        Bookmark.java
        Config.java
        CronTab.java
        Dashboard.java
        DatabaseMetadataSequence.java
        DatabaseMetadataType.java
        DatabaseMetadataValue.java
        DocumentFilter.java
        DocumentFilterRule.java
        KeyValue.java
        Language.java
        LockToken.java
        MailAccount.java
        MailFilter.java
        MailFilterRule.java
        MimeType.java
        Profile.java
        ProfileChat.java
        ProfileDashboard.java
        ProfileMenu.java
        ProfileMenuBookmark.java
        ProfileMenuEdit.java
        ProfileMenuFile.java
        ProfileMenuHelp.java
        ProfileMenuTool.java
        ProfileMisc.java
        ProfileStack.java
        ProfileTab.java
        ProfileTabDocument.java
        ProfileTabFolder.java
        ProfileTabMail.java
        ProfileWizard.java
        QueryParams.java
        Report.java
        Role.java
        Translation.java
        TranslationId.java
        TwitterAccount.java
        User.java
        UserConfig.java
        cache
        UserDocumentKeywords.java
        UserItems.java
        extension
        core
        DocumentExtension.java
        DocumentExtensionManager.java
        Extension.java
        ExtensionException.java
        ExtensionManager.java
        FolderExtension.java
        FolderExtensionManager.java
        OrderComparator.java
        dao
        ContactDAO.java
        ExtensionDAO.java
        ForumDAO.java
        MessageDAO.java
        ProposedQueryDAO.java
        ProposedSubscriptionDAO.java
        StampImageDAO.java
        StampTextDAO.java
        StapleGroupDAO.java
        bean
        Contact.java
        Extension.java
        Forum.java
        ForumPost.java
        ForumTopic.java
        MessageReceived.java
        MessageSent.java
        ProposedQueryReceived.java
        ProposedQuerySent.java
        ProposedSubscriptionReceived.java
        ProposedSubscriptionSent.java
        StampImage.java
        StampText.java
        Staple.java
        StapleGroup.java
        frontend
        client
        Customization.java
        ExtensionVersion.java
        HandlersTest.java
        HelloWorld.java
        MainMenuExample.java
        TabFolderExample.java
        TabWorkspaceExample.java
        ToolBarBoxExample.java
        ToolBarButtonExample.java
        util
        OKMExtensionBundleExampleResources.java
        servlet
        ActivityLogServlet.java
        BaseServlet.java
        ContactServlet.java
        ForumServlet.java
        MessageServlet.java
        ProposedQueryServlet.java
        ProposedSubscriptionServlet.java
        StampServlet.java
        StaplingDownloadServlet.java
        StaplingServlet.java
        extractor
        AbbyTextExtractor.java
        AudioTextExtractor.java
        CuneiformTextExtractor.java
        ExifTextExtractor.java
        MsOffice2007ContentHandler.java
        MsOffice2007TextExtractor.java
        OOTextExtractor.java
        PdfTextExtractor.java
        PresentationMLContentHandler.java
        RegisteredExtractors.java
        SourceCodeTextExtractor.java
        SpreadsheetMLContentHandler.java
        Tesseract2TextExtractor.java
        Tesseract3TextExtractor.java
        WordprocessingMLContentHandler.java
        frontend
        client
        Main.java
        OKMException.java
        bean
        Coordenates.java
        FileToUpload.java
        GWTAvailableOption.java
        GWTBookmark.java
        GWTComment.java
        GWTDashboardDocumentResult.java
        GWTDashboardFolderResult.java
        GWTDashboardMailResult.java
        GWTDocument.java
        GWTFileUploadingStatus.java
        GWTFolder.java
        GWTKeyValue.java
        GWTKeyword.java
        GWTLanguage.java
        GWTLock.java
        GWTMail.java
        GWTMetadata.java
        GWTNote.java
        GWTObjectToOrder.java
        GWTPermission.java
        GWTProcessDefinition.java
        GWTProcessInstance.java
        GWTPropertyGroup.java
        GWTPropertyParams.java
        GWTQueryParams.java
        GWTQueryResult.java
        GWTReport.java
        GWTResultSet.java
        GWTTaskInstance.java
        GWTTerm.java
        GWTTestImap.java
        GWTToken.java
        GWTTransition.java
        GWTUserConfig.java
        GWTVersion.java
        GWTWorkflowComment.java
        GWTWorkspace.java
        RepositoryContext.java
        ToolBarOption.java
        extension
        GWTActivity.java
        GWTContact.java
        GWTForum.java
        GWTForumPost.java
        GWTForumTopic.java
        GWTMessageReceived.java
        GWTMessageSent.java
        GWTProposedQueryReceived.java
        GWTProposedQuerySent.java
        GWTProposedSubscriptionReceived.java
        GWTProposedSubscriptionSent.java
        GWTStamp.java
        GWTStaple.java
        GWTStapleGroup.java
        GWTTextMessageSent.java
        form
        GWTButton.java
        GWTCheckBox.java
        GWTDownload.java
        GWTFormElement.java
        GWTInput.java
        GWTNode.java
        GWTOption.java
        GWTPrint.java
        GWTSelect.java
        GWTSeparator.java
        GWTSuggestBox.java
        GWTText.java
        GWTTextArea.java
        GWTUpload.java
        GWTValidator.java
        contants
        service
        ErrorCode.java
        RPCService.java
        ui
        UIDesktopConstants.java
        UIDockPanelConstants.java
        UIFileUploadConstants.java
        UIMenuConstants.java
        UISearchConstants.java
        extension
        ExtensionManager.java
        comunicator
        DashboardComunicator.java
        FileBrowserComunicator.java
        GeneralComunicator.java
        NavigatorComunicator.java
        SearchComunicator.java
        TabDocumentComunicator.java
        TabFolderComunicator.java
        TabMailComunicator.java
        UtilComunicator.java
        WorkspaceComunicator.java
        event
        HasDashboardEvent.java
        HasDocumentEvent.java
        HasFolderEvent.java
        HasLanguageEvent.java
        HasMailEvent.java
        HasNavigatorEvent.java
        HasPropertyGroupEvent.java
        HasToolBarEvent.java
        HasWorkspaceEvent.java
        handler
        DashboardHandlerExtension.java
        DocumentHandlerExtension.java
        FolderHandlerExtension.java
        LanguageHandlerExtension.java
        MailHandlerExtension.java
        NavigatorHandlerExtension.java
        PropertyGroupHandlerExtension.java
        ToolBarHandlerExtension.java
        WorkspaceHandlerExtension.java
        hashandler
        HasDashboardHandlerExtension.java
        HasDocumentHandlerExtension.java
        HasFolderHandlerExtension.java
        HasLanguageHandlerExtension.java
        HasMailHandlerExtension.java
        HasNavigatorHandlerExtension.java
        HasPropertyGroupHandlerExtension.java
        HasToolBarHandlerExtension.java
        HasWorkspaceHandlerExtension.java
        widget
        HasWidget.java
        menu
        MenuBarExtension.java
        MenuItemExtension.java
        preview
        HasPreviewExtension.java
        PreviewExtension.java
        tabdocument
        HasDocumentExtension.java
        TabDocumentExtension.java
        tabfolder
        HasFolderExtension.java
        TabFolderExtension.java
        tabmail
        HasMailExtension.java
        TabMailExtension.java
        tabworkspace
        HasWorkspaceExtension.java
        TabWorkspaceExtension.java
        toolbar
        HasEnabledExtension.java
        HasPermissionsExtension.java
        HasToolBarBoxExtension.java
        ToolBarBoxExtension.java
        ToolBarButtonExtension.java
        userinfo
        HasUserInfoExtension.java
        UserInfoExtension.java
        panel
        ExtendedDockPanel.java
        VerticalBorderPanel.java
        bottom
        BottomPanel.java
        center
        Administration.java
        Browser.java
        Dashboard.java
        Desktop.java
        HorizontalSplitPanelExtended.java
        Search.java
        SearchBrowser.java
        VerticalSplitPanelExtended.java
        left
        ExtendedScrollPanel.java
        ExtendedStackPanel.java
        HistorySearch.java
        Navigator.java
        top
        TopPanel.java
        service
        OKMAuthService.java
        OKMAuthServiceAsync.java
        OKMBookmarkService.java
        OKMBookmarkServiceAsync.java
        OKMChatService.java
        OKMChatServiceAsync.java
        OKMDashboardService.java
        OKMDashboardServiceAsync.java
        OKMDatabaseMetadataService.java
        OKMDatabaseMetadataServiceAsync.java
        OKMDocumentService.java
        OKMDocumentServiceAsync.java
        OKMFolderService.java
        OKMFolderServiceAsync.java
        OKMGeneralService.java
        OKMGeneralServiceAsync.java
        OKMKeyValueService.java
        OKMKeyValueServiceAsync.java
        OKMLanguageService.java
        OKMLanguageServiceAsync.java
        OKMMailService.java
        OKMMailServiceAsync.java
        OKMMetadataService.java
        OKMNoteService.java
        OKMNoteServiceAsync.java
        OKMNotifyService.java
        OKMNotifyServiceAsync.java
        OKMPropertyGroupService.java
        OKMPropertyGroupServiceAsync.java
        OKMPropertyService.java
        OKMPropertyServiceAsync.java
        OKMRepositoryService.java
        OKMRepositoryServiceAsync.java
        OKMSearchService.java
        OKMSearchServiceAsync.java
        OKMTestService.java
        OKMTestServiceAsync.java
        OKMThesaurusService.java
        OKMThesaurusServiceAsync.java
        OKMUserConfigService.java
        OKMUserConfigServiceAsync.java
        OKMWorkflowService.java
        OKMWorkflowServiceAsync.java
        OKMWorkspaceService.java
        OKMWorkspaceServiceAsync.java
        extension
        OKMActivityLogService.java
        OKMActivityLogServiceAsync.java
        OKMContactService.java
        OKMContactServiceAsync.java
        OKMForumService.java
        OKMForumServiceAsync.java
        OKMMessageService.java
        OKMMessageServiceAsync.java
        OKMProposedQueryService.java
        OKMProposedQueryServiceAsync.java
        OKMProposedSubscriptionService.java
        OKMProposedSubscriptionServiceAsync.java
        OKMStampService.java
        OKMStampServiceAsync.java
        OKMStaplingService.java
        OKMStaplingServiceAsync.java
        util
        BookmarkComparator.java
        ColumnComparatorDate.java
        ColumnComparatorDouble.java
        ColumnComparatorText.java
        CommonUI.java
        ContactComparator.java
        DocumentComparator.java
        FolderComparator.java
        Format.java
        ISO8601.java
        Keyboard.java
        KeywordComparator.java
        Location.java
        MessageFormat.java
        MessageSentComparator.java
        OKMBundleResources.java
        QueryParamsComparator.java
        RoleComparator.java
        StringIgnoreCaseComparator.java
        UserComparator.java
        Util.java
        WindowUtils.java
        WorkspaceUserProperties.java
        metadata
        DatabaseMetadataCommon.java
        DatabaseMetadataMap.java
        validator
        AlphaNumericValidator.java
        DecimalValidator.java
        ErrorMsgLabelTextAction.java
        IntegerMaxValidator.java
        IntegerMinValidator.java
        NotEmptyFileUploadValidator.java
        NotEmptyFlextTableValidator.java
        NumericValidator.java
        RegularExpressionValidator.java
        StringGtValidator.java
        StringLtValidator.java
        StringMaxLengthValidator.java
        StringMinLengthValidator.java
        URLValidator.java
        ValidatorBuilder.java
        widget
        AboutPopup.java
        ConfirmPopup.java
        DebugConsolePopup.java
        Dragable.java
        ErrorPopup.java
        ExternalURLPopup.java
        GroupBoxPanel.java
        LogoutPopup.java
        MenuBase.java
        MenuPopup.java
        MsgPopup.java
        OriginPanel.java
        PropertyGroupPopup.java
        ReportPopup.java
        TabWorkspace.java
        UserInfo.java
        UserPopup.java
        WidgetUtil.java
        WorkflowPopup.java
        ZohoPopup.java
        categories
        CategoriesMenu.java
        CategoriesSelectPopup.java
        CategoriesTree.java
        FolderSelectTree.java
        Status.java
        chat
        ChatRoomDialogBox.java
        ChatRoomPopup.java
        ExtendedFlexTable.java
        HasChatRoom.java
        HasTranslations.java
        OnlineUsersPopup.java
        dashboard
        AnchorExtended.java
        ControlSearchIn.java
        DashboardWidget.java
        GeneralDashboard.java
        HorizontalToolBar.java
        ImageHover.java
        MailDashboard.java
        NewsDashboard.java
        Score.java
        Status.java
        ToolBarBox.java
        UserDashboard.java
        WidgetToFire.java
        keymap
        KeyMapDashboard.java
        KeyMapTable.java
        KeywordWidget.java
        TagCloud.java
        workflow
        WorkflowDashboard.java
        WorkflowFormPanel.java
        WorkflowWidget.java
        eastereggs
        Futurama.java
        FuturamaWalking.java
        filebrowser
        ExtendedColumnSorter.java
        ExtendedScrollTable.java
        FileBrowser.java
        FilePath.java
        FileTextBox.java
        Status.java
        menu
        CategoriesMenu.java
        MailMenu.java
        PersonalMenu.java
        TaxonomyMenu.java
        TemplatesMenu.java
        ThesaurusMenu.java
        TrashMenu.java
        findfolder
        FindFolderSelectPopup.java
        Status.java
        foldertree
        ExtendedTree.java
        FolderSelectPopup.java
        FolderSelectTree.java
        FolderTextBox.java
        FolderTree.java
        Status.java
        form
        DatabaseRecordSelectPopup.java
        FolderSelectPopup.java
        FolderSelectTree.java
        FormManager.java
        HasDatabaseRecord.java
        HasWorkflow.java
        Status.java
        mail
        MailMenu.java
        MailTree.java
        mainmenu
        Bookmark.java
        BookmarkPopup.java
        MainMenu.java
        ManageBookmarkPopup.java
        notify
        NotifyPanel.java
        NotifyPopup.java
        NotifyRole.java
        NotifyUser.java
        RoleScrollTable.java
        UserScrollTable.java
        personal
        PersonalMenu.java
        PersonalTree.java
        properties
        Document.java
        Folder.java
        Mail.java
        Notes.java
        Preview.java
        PropertyGroup.java
        SecurityScrollTable.java
        Status.java
        TabDocument.java
        TabFolder.java
        TabMail.java
        TabMultiple.java
        VersionScrollTable.java
        attachment
        ExtendedFlexTable.java
        Menu.java
        MenuPopup.java
        propertygroup
        PropertyGroupWidget.java
        PropertyGroupWidgetToFire.java
        richtext
        RichTextAction.java
        RichTextPopup.java
        RichTextToolbar.java
        searchin
        CalendarWidget.java
        ControlSearchIn.java
        FolderSelectPopup.java
        FolderSelectTree.java
        GroupPopup.java
        HasSearch.java
        SearchAdvanced.java
        SearchControl.java
        SearchIn.java
        SearchMetadata.java
        SearchNormal.java
        searchresult
        ExtendedColumnSorter.java
        ExtendedScrollTable.java
        Menu.java
        MenuPopup.java
        Score.java
        SearchCompactResult.java
        SearchFullResult.java
        SearchResult.java
        Status.java
        searchsaved
        ExtendedFlexTable.java
        Menu.java
        MenuPopup.java
        SearchSaved.java
        Status.java
        searchuser
        ExtendedFlexTable.java
        Menu.java
        MenuPopup.java
        Status.java
        UserNews.java
        security
        RoleScrollTable.java
        SecurityPopup.java
        SecurityRole.java
        SecurityUser.java
        Status.java
        UserScrollTable.java
        startup
        StartUp.java
        StartUpPopup.java
        taxonomy
        TaxonomyMenu.java
        TaxonomyTree.java
        template
        TemplateMenu.java
        TemplateTree.java
        test
        TestPopup.java
        thesaurus
        FolderSelectTree.java
        Status.java
        ThesaurusMenu.java
        ThesaurusSelectPopup.java
        ThesaurusTree.java
        toolbar
        ToolBar.java
        ToolBarButton.java
        trash
        ExtendedTree.java
        TrashMenu.java
        TrashTree.java
        upload
        FancyFileUpload.java
        FileUploadForm.java
        FileUploadPopup.java
        wizard
        CategoriesWidget.java
        FolderSelectTree.java
        KeywordsWidget.java
        TemplateWizardPopup.java
        WizardPopup.java
        WorkflowWidget.java
        WorkflowWidgetToFire.java
        jcr
        JCRUtils.java
        kea
        RDFREpository.java
        filter
        KEAFilter.java
        KEAPhraseFilter.java
        NumbersFilter.java
        metadata
        KEAFilterBank.java
        MetadataExtractionException.java
        MetadataExtractor.java
        SubjectExtractor.java
        WorkspaceHelper.java
        stemmers
        FrenchStemmer.java
        GermanStemmer.java
        IteratedLovinsStemmer.java
        LovinsStemmer.java
        NoStemmer.java
        PorterStemmer.java
        SpanishStemmer.java
        SpanishStemmerSB.java
        SremovalStemmer.java
        Stemmer.java
        stopwords
        Stopwords.java
        StopwordsEnglish.java
        StopwordsFrench.java
        StopwordsGerman.java
        StopwordsSpanish.java
        tree
        KEATree.java
        QueryBank.java
        TermComparator.java
        util
        Counter.java
        vocab
        Vocabulary.java
        module
        AuthModule.java
        BookmarkModule.java
        DashboardModule.java
        DocumentModule.java
        FolderModule.java
        MailModule.java
        ModuleManager.java
        NoteModule.java
        NotificationModule.java
        PropertyGroupModule.java
        PropertyModule.java
        RepositoryModule.java
        ScriptingModule.java
        SearchModule.java
        StatsModule.java
        UserConfigModule.java
        WorkflowModule.java
        base
        BaseAuthModule.java
        BaseDocumentModule.java
        BaseFolderModule.java
        BaseMailModule.java
        BaseNoteModule.java
        BaseNotificationModule.java
        BasePropertyGroupModule.java
        BasePropertyModule.java
        BaseScriptingModule.java
        BaseWorkflowModule.java
        direct
        DirectAuthModule.java
        DirectBookmarkModule.java
        DirectDashboardModule.java
        DirectDocumentModule.java
        DirectFolderModule.java
        DirectMailModule.java
        DirectNoteModule.java
        DirectNotificationModule.java
        DirectPropertyGroupModule.java
        DirectPropertyModule.java
        DirectRepositoryModule.java
        DirectScriptingModule.java
        DirectSearchModule.java
        DirectStatsModule.java
        DirectUserConfigModule.java
        DirectWorkflowModule.java
        InputStreamKnownSizeBody.java
        ejb
        EJBAuthModule.java
        EJBDocumentModule.java
        EJBFolderModule.java
        EJBRepositoryModule.java
        principal
        DatabasePrincipalAdapter.java
        DummyPrincipalAdapter.java
        LdapPrincipalAdapter.java
        PrincipalAdapter.java
        PrincipalAdapterException.java
        UsersRolesPrincipalAdapter.java
        servlet
        BasicSecuredServlet.java
        DownloadServlet.java
        FlagIconServlet.java
        HibernateFilter.java
        ImageLogoServlet.java
        MimeIconServlet.java
        RepositoryStartupServlet.java
        SessionListener.java
        StatusServlet.java
        SyndicationServlet.java
        TestServlet.java
        TextToSpeechServlet.java
        WebdavServlet.java
        WorkflowRegisterServlet.java
        admin
        ActiveSessionsServlet.java
        ActivityLogServlet.java
        AuthServlet.java
        BaseServlet.java
        BenchmarkServlet.java
        CheckEmailServlet.java
        ConfigServlet.java
        CronTabServlet.java
        DataBrowserServlet.java
        DatabaseQueryServlet.java
        DocumentFilterServlet.java
        HibernateStatsServlet.java
        InstallationResetServlet.java
        LanguageServlet.java
        LogCatServlet.java
        LoggedUsersServlet.java
        MailAccountServlet.java
        MimeTypeServlet.java
        ProfileServlet.java
        PropertyGroupsServlet.java
        RegisterThesaurusServlet.java
        RegisterWorkflowServlet.java
        ReportServlet.java
        RepositoryBackupServlet.java
        RepositoryCheckerServlet.java
        RepositorySearchServlet.java
        RepositoryViewServlet.java
        StampServlet.java
        StatsGraphServlet.java
        TwitterAccountServlet.java
        UserConfigServlet.java
        WorkflowGraphServlet.java
        WorkflowServlet.java
        frontend
        AuthServlet.java
        BookmarkServlet.java
        ChatServlet.java
        ConverterServlet.java
        DashboardServlet.java
        DatabaseMetadataServlet.java
        DocumentServlet.java
        DownloadServlet.java
        ExecuteReportServlet.java
        FileUploadListener.java
        FileUploadServlet.java
        FolderServlet.java
        GeneralServlet.java
        KeyValueServlet.java
        LanguageServlet.java
        MailServlet.java
        NoteServlet.java
        NotifyServlet.java
        OKMHttpServlet.java
        OKMRemoteServiceServlet.java
        PropertyGroupServlet.java
        PropertyServlet.java
        RepositoryServlet.java
        SearchServlet.java
        TestServlet.java
        ThesaurusServlet.java
        UserConfigServlet.java
        WorkflowServlet.java
        WorkspaceServlet.java
        mobile
        DocumentComparator.java
        FolderComparator.java
        HandlerServlet.java
        test
        Dummy.java
        DummyEncoding.java
        DummyFile.java
        DummyLockAccessDenied.java
        DummyLockToken.java
        DummyMyTextExtractor.java
        DummyTextExtractor.java
        DummyVersion.java
        ExportImportTest.java
        IsCheckedOutTest.java
        MyAccessManager.java
        MyAccessManagerLockAccessDenied.java
        Test.java
        util
        ArchiveUtils.java
        Benchmark.java
        DatabaseDialectAdapter.java
        DatabaseMetadataUtils.java
        DocConverter.java
        DocumentUtils.java
        EnvironmentDetector.java
        ExecutionUtils.java
        FileLogger.java
        FileUtils.java
        FormUtils.java
        FormatUtil.java
        GWTUtil.java
        ISO8601.java
        JBPMUtils.java
        MailUtils.java
        NetworkUtils.java
        OOUtils.java
        PDFUtils.java
        Populate.java
        ReaderInputStream.java
        ReportUtils.java
        ScriptingLock.java
        SecureStore.java
        Serializer.java
        StackTraceUtils.java
        TemplateUtils.java
        Transaction.java
        UUIDGenerator.java
        Update.java
        UserActivity.java
        WarUtils.java
        WebUtils.java
        WorkflowUtils.java
        XidFactory.java
        cl
        BinaryClassLoader.java
        ClassLoaderUtils.java
        FilesystemClassLoader.java
        JarClassLoader.java
        MultipleClassLoader.java
        eliza
        AuxVerb.java
        Comment.java
        Eliza.java
        ElizaComments.java
        Replace.java
        impexp
        DummyInfoDecorator.java
        HTMLDetailedInfoDecorator.java
        HTMLInfoDecorator.java
        ImpExpStats.java
        InfoDecorator.java
        RepositoryChecker.java
        RepositoryExporter.java
        RepositoryImporter.java
        TextInfoDecorator.java
        markov
        CharQueue.java
        Generator.java
        Markov.java
        metadata
        MetadataExtractor.java
        OfficeMetadata.java
        OpenOfficeMetadata.java
        PdfMetadata.java
        tags
        ConstantsMapTag.java
        EscapeHtmlTag.java
        FormatSizeTag.java
        GetNameTag.java
        GetParentTag.java
        StartsWithTag.java
        validator
        ValidatorException.java
        ValidatorFactory.java
        password
        CompletePasswordValidator.java
        NoPasswordValidator.java
        PasswordValidator.java
        webdav
        DefaultHandler.java
        DefaultItemFilter.java
        DirListingExportHandler.java
        IOManagerImpl.java
        LocatorFactoryImplEx.java
        workflow
        AddressResolver.java
        DocumentLockActionHandler.java
        DocumentUnlockActionHandler.java
        ExpressionAssignmentHandler.java
        IdentitySession.java
        ws
        client
        AuthHandlerResolver.java
        HeaderHandler.java
        endpoint
        OKMAuth.java
        OKMBookmark.java
        OKMDocument.java
        OKMFolder.java
        OKMMail.java
        OKMNote.java
        OKMNotification.java
        OKMProperty.java
        OKMPropertyGroup.java
        OKMRepository.java
        OKMSearch.java
        OKMTest.java
        OKMWorkflow.java
        util
        BytePair.java
        FormElementComplex.java
        IntegerPair.java
    - test
      - java
        com
        openkm
        api
        AuthTest.java
        jcr
        CleanUnusedTest.java
        Config.java
        SecurityTest.java
        SimpleTest.java
        misc
        ExecutionTest.java
        FormsTest.java
        ZipTest.java

package com.openkm.extractor;

import java.io.BufferedInputStream;
import java.io.CharArrayReader;
import java.io.CharArrayWriter;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.io.Reader;
import java.io.StringReader;
import java.util.Iterator;
import java.util.List;
import java.util.Map;

import org.apache.jackrabbit.extractor.AbstractTextExtractor;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import org.apache.pdfbox.pdmodel.graphics.xobject.PDXObjectImage;
import org.apache.pdfbox.util.PDFTextStripper;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import com.openkm.core.Config;
import com.openkm.util.FileUtils;

/**
 * Text extractor for Portable Document Format (PDF).
 */
public class PdfTextExtractor extends AbstractTextExtractor {

    /**
     * Logger instance.
     */
	private static final Logger log = LoggerFactory.getLogger(PdfTextExtractor.class);

    /**
     * Force loading of dependent class.
     */
    static {
        PDFParser.class.getName();
    }

    /**
     * Creates a new <code>PdfTextExtractor</code> instance.
     */
    public PdfTextExtractor() {
        super(new String[]{ "application/pdf" });
    }

    //-------------------------------------------------------< TextExtractor >

    /**
     * {@inheritDoc}
     */
    @SuppressWarnings("rawtypes")
	public Reader extractText(InputStream stream, String type, String encoding) throws IOException {
        try {
            PDFParser parser = new PDFParser(new BufferedInputStream(stream));
            
            try {
                parser.parse();
                PDDocument document = parser.getPDDocument();
                CharArrayWriter writer = new CharArrayWriter();
                
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setLineSeparator("\n");
                stripper.writeText(document, writer);
                String st = writer.toString().trim();
                log.debug("TextStripped: '{}'", st);
                
                if (Config.SYSTEM_PDF_FORCE_OCR || st.length() <= 1) {
                	log.warn("PDF does not contains text layer");
                	
                	// Extract images from PDF
					List pages = document.getDocumentCatalog().getAllPages();
                	StringBuilder sb = new StringBuilder();
                	
                	for (Iterator itPg = pages.iterator(); itPg.hasNext(); ) {
                		PDPage page = (PDPage) itPg.next();
                        PDResources resources = page.getResources();
                        Map images = resources.getImages();
                        
                        if (images != null) {
                        	for (Iterator itImg = images.keySet().iterator(); itImg.hasNext(); ) {
                        		 String key = (String) itImg.next();
                                 PDXObjectImage image = (PDXObjectImage) images.get(key);
                                 File pdfImg = File.createTempFile(key, "." + image.getSuffix());
                                 log.debug("Writing image: {}", pdfImg.getPath());
                                 image.write2file(pdfImg);
                                 String txt = new CuneiformTextExtractor().doOcr(pdfImg);
                                 sb.append(txt).append(" ");
                                 log.debug("OCR Extracted: {}", txt);
                                 FileUtils.deleteQuietly(pdfImg);
                        	}
                        }
                	}
                	
                	return new StringReader(sb.toString());
                } else {
                	return new CharArrayReader(writer.toCharArray());
                }
            } finally {
                try {
                    PDDocument doc = parser.getPDDocument();
                    if (doc != null) {
                        doc.close();
                    }
                } catch (IOException e) {
                    // ignore
                }
            }
        } catch (Exception e) {
            // it may happen that PDFParser throws a runtime
            // exception when parsing certain pdf documents
        	log.warn("Failed to extract PDF text content", e);
            return new StringReader("");
        } finally {
            stream.close();
        }
    }
}