PageTextExtraction.java example

Explorer

icepdf-master
- core
  - core-awt
    - src
      - main
        java
        org
        icepdf
        core
        Memento.java
        SecurityCallback.java
        events
        PageImageEvent.java
        PageInitializingEvent.java
        PageLoadingAdapter.java
        PageLoadingEvent.java
        PageLoadingListener.java
        PagePaintingEvent.java
        PaintPageEvent.java
        PaintPageListener.java
        exceptions
        PDFException.java
        PDFSecurityException.java
        io
        BitStream.java
        BufferedMarkedInputStream.java
        ByteDoubleArrayInputStream.java
        ConservativeSizingByteArrayOutputStream.java
        CountingOutputStream.java
        RandomAccessFileInputStream.java
        SeekableByteArrayInputStream.java
        SeekableInput.java
        SeekableInputConstrainedWrapper.java
        SequenceInputStream.java
        SizeInputStream.java
        ZeroPaddedInputStream.java
        pobjects
        Catalog.java
        CrossReference.java
        Destination.java
        Dictionary.java
        Document.java
        EmbeddedFileStream.java
        FileSpecification.java
        Form.java
        HexStringObject.java
        ImageStream.java
        ImageUtility.java
        LiteralStringObject.java
        Name.java
        NameNode.java
        NameTree.java
        NamedDestinations.java
        Names.java
        ObjectStream.java
        OptionalContent.java
        OptionalContentGroup.java
        OptionalContentMembership.java
        OptionalContents.java
        OutlineItem.java
        Outlines.java
        PDate.java
        PDimension.java
        PInfo.java
        PObject.java
        PRectangle.java
        PTrailer.java
        Page.java
        PageTree.java
        Permissions.java
        Reference.java
        Resources.java
        StateManager.java
        Stream.java
        StringObject.java
        Thumbnail.java
        ViewerPreferences.java
        acroform
        AdditionalActionsDictionary.java
        ButtonFieldDictionary.java
        CertSeedValueDictionary.java
        ChoiceFieldDictionary.java
        DocMDPTransferParam.java
        FieldDictionary.java
        FieldDictionaryFactory.java
        FieldMDPTransferParam.java
        InteractiveForm.java
        LockDictionary.java
        SeedValueDictionary.java
        SignatureDictionary.java
        SignatureFieldDictionary.java
        SignatureHandler.java
        SignatureReferenceDictionary.java
        TextFieldDictionary.java
        TransformParams.java
        UR3TransferParam.java
        VariableTextFieldDictionary.java
        signature
        AbstractPkcsValidator.java
        AlgorithmIdentifier.java
        DigitalSignatureFactory.java
        Pkcs1Validator.java
        Pkcs7Validator.java
        SignatureSigner.java
        SignatureValidator.java
        certificates
        CRLVerifier.java
        CertificateVerifier.java
        exceptions
        CertificateVerificationException.java
        RevocationVerificationException.java
        SelfSignedVerificationException.java
        SignatureIntegrityException.java
        actions
        Action.java
        ActionFactory.java
        FormAction.java
        GoToAction.java
        GoToRAction.java
        JavaScriptAction.java
        LaunchAction.java
        NamedAction.java
        ResetFormAction.java
        SubmitFormAction.java
        URIAction.java
        annotations
        AbstractWidgetAnnotation.java
        Annotation.java
        AnnotationFactory.java
        Appearance.java
        AppearanceState.java
        BorderEffect.java
        BorderStyle.java
        ButtonWidgetAnnotation.java
        ChoiceWidgetAnnotation.java
        CircleAnnotation.java
        FreeTextAnnotation.java
        GenericAnnotation.java
        InkAnnotation.java
        LineAnnotation.java
        LinkAnnotation.java
        MarkupAnnotation.java
        PopupAnnotation.java
        SignatureWidgetAnnotation.java
        SquareAnnotation.java
        TextAnnotation.java
        TextMarkupAnnotation.java
        TextWidgetAnnotation.java
        WidgetAnnotation.java
        filters
        ASCII85Decode.java
        ASCIIHexDecode.java
        CCITTFax.java
        CCITTFaxDecoder.java
        ChunkingInputStream.java
        FlateDecode.java
        G4State.java
        LZWDecode.java
        PredictorDecode.java
        RunLengthDecode.java
        fonts
        AFM.java
        CMap.java
        Encoding.java
        Font.java
        FontDescriptor.java
        FontFactory.java
        FontFile.java
        FontManager.java
        ofont
        CMap.java
        Encoding.java
        Font.java
        OFont.java
        functions
        Function.java
        Function_0.java
        Function_2.java
        Function_3.java
        Function_4.java
        postscript
        Expression.java
        Lexer.java
        LexerText.java
        Operator.java
        OperatorFactory.java
        OperatorNames.java
        Procedure.java
        graphics
        BlendComposite.java
        BlurredImageReference.java
        CachedImageReference.java
        CalGray.java
        CalRGB.java
        ColorSpaceCMYK.java
        DeviceCMYK.java
        DeviceGray.java
        DeviceN.java
        DeviceRGB.java
        ExtGState.java
        FloydSteinbergImageReference.java
        GlyphOutlineClip.java
        GraphicsState.java
        ICCBased.java
        ImagePool.java
        ImageReference.java
        ImageReferenceFactory.java
        ImageStreamReference.java
        Indexed.java
        InlineImageStreamReference.java
        Lab.java
        MipMappedImageReference.java
        OptionalContentState.java
        PColorSpace.java
        PaintTimer.java
        Pattern.java
        PatternColor.java
        RasterOps
        CMYKRasterOp.java
        DecodeRasterOp.java
        GrayRasterOp.java
        IccCmykRasterOp.java
        PColorSpaceRasterOp.java
        YCCKRasterOp.java
        YCbCrARasterOp.java
        YCbCrRasterOp.java
        ScaledImageReference.java
        Separation.java
        ShadingMeshPattern.java
        ShadingPattern.java
        ShadingType1Pattern.java
        ShadingType2Pattern.java
        ShadingType3Pattern.java
        ShadingType4Pattern.java
        ShadingType5Pattern.java
        ShadingType6Pattern.java
        ShadingType7Pattern.java
        Shapes.java
        SmoothScaledImageReference.java
        SoftMask.java
        TextSprite.java
        TextState.java
        TilingPattern.java
        WatermarkCallback.java
        batik
        ext
        awt
        LinearGradientPaint.java
        LinearGradientPaintContext.java
        MultipleGradientPaint.java
        MultipleGradientPaintContext.java
        RadialGradientPaint.java
        RadialGradientPaintContext.java
        image
        GraphicsUtil.java
        commands
        AbstractDrawCmd.java
        AlphaDrawCmd.java
        BlendCompositeDrawCmd.java
        ClipDrawCmd.java
        ColorDrawCmd.java
        DrawCmd.java
        DrawDrawCmd.java
        FillDrawCmd.java
        FormDrawCmd.java
        GlyphOutlineDrawCmd.java
        GraphicsStateCmd.java
        ImageDrawCmd.java
        NoClipDrawCmd.java
        OCGEndDrawCmd.java
        OCGStartDrawCmd.java
        PaintDrawCmd.java
        PostScriptEncoder.java
        ShapeDrawCmd.java
        ShapesDrawCmd.java
        StrokeDrawCmd.java
        TextSpriteDrawCmd.java
        TextTransformDrawCmd.java
        TilingPatternDrawCmd.java
        TransformDrawCmd.java
        text
        AbstractText.java
        GlyphText.java
        LinePositionComparator.java
        LineText.java
        PageText.java
        Text.java
        TextPositionComparator.java
        TextSelect.java
        WordPositionComparator.java
        WordText.java
        security
        CryptFilter.java
        CryptFilterEntry.java
        EncryptionDictionary.java
        Permissions.java
        PublicSecurityHandler.java
        SecurityHandler.java
        SecurityHandlerInterface.java
        SecurityManager.java
        StandardEncryption.java
        StandardSecurityHandler.java
        search
        DocumentSearchController.java
        SearchTerm.java
        util
        ColorUtil.java
        Defs.java
        FontUtil.java
        GraphicsRenderingHints.java
        HexDumper.java
        LazyObjectLoader.java
        Library.java
        Parser.java
        PdfOps.java
        PropertyConstants.java
        SoftLRUCache.java
        Utils.java
        content
        AbstractContentParser.java
        ContentParser.java
        ContentParserFactory.java
        OContentParser.java
        TextMetrics.java
        loggers
        BriefLogFormatter.java
        BriefestLogFormatter.java
        java-templates
        ProductInfo.java
        resources
        org
        icepdf
        core
        application
        ProductInfo.java
- examples
  - annotation
    - callback
      - src
        main
        java
        org
        icepdf
        os
        examples
        annotation
        callback
        MyAnnotationCallback.java
    - creation
      - src
        main
        java
        org
        icepdf
        os
        examples
        annotation
        creation
        NewAnnotationPostPageLoad.java
        NewAnnotationPrePageLoad.java
  - capture
    - listener
      - src
        main
        java
        org
        icepdf
        os
        examples
        capture
        DocumentCapture.java
    - png
      - src
        main
        java
        org
        icepdf
        os
        examples
        capture
        PageCapture.java
    - portfolio
      - src
        main
        java
        org
        icepdf
        os
        examples
        capture
        PortfolioCapture.java
    - svg
      - src
        main
        java
        org
        icepdf
        os
        examples
        svg
        SvgCapture.java
    - tiff
      - src
        main
        java
        org
        icepdf
        os
        capture
        MultiPageCapture.java
    - watermark
      - src
        main
        java
        org
        icepdf
        os
        examples
        watermark
        WatermarkPageCapture.java
  - component
    - src
      - main
        java
        org
        icepdf
        os
        examples
        component
        ViewerComponentExample.java
  - extraction
    - image
      - src
        main
        java
        org
        icepdf
        os
        examples
        extraction
        PageImageExtraction.java
    - metadata
      - src
        main
        java
        org
        icepdf
        os
        examples
        extraction
        PageMetaDataExtraction.java
    - text
      - src
        main
        java
        org
        icepdf
        os
        examples
        extraction
        PageTextExtraction.java
  - icefaces
    - src
      - main
        java
        org
        icepdf
        examples
        jsf
        viewer
        renderkit
        PdfResourceHandler.java
        servlet
        PdfRenderer.java
        util
        FacesUtils.java
        InputFileSessionCleaner.java
        view
        BeanNames.java
        DocumentCache.java
        DocumentManager.java
        DocumentState.java
        OutlineItemTreeNode.java
  - javafx
    - src
      - main
        java
        org
        icepdf
        os
        examples
        javafx
        PdfFXViewer.java
  - jws
    - src
      - org
        icepdf
        os
        examples
        WebStart.java
  - loadingEvents
    - src
      - main
        java
        org
        icepdf
        os
        loadingEvents
        PageLoadingEvents.java
  - printservices
    - src
      - main
        java
        org
        icepdf
        os
        examples
        print
        PrintServices.java
  - search
    - component
      - src
        main
        java
        org
        icepdf
        os
        search
        SearchController.java
    - headless
      - src
        main
        java
        org
        icepdf
        os
        search
        SearchControllerHeadless.java
  - signatures
    - src
      - main
        java
        org
        icepdf
        os
        examples
        signatures
        SignatureVerification.java
- viewer
  - viewer-awt
    - src
      - main
        java
        org
        icepdf
        ri
        common
        AboutDialog.java
        ComponentKeyBinding.java
        CurrentPageChanger.java
        DocumentInformationDialog.java
        EscapeJDialog.java
        FileExtensionUtils.java
        FloatTextFieldInputVerifier.java
        FloatTextFieldKeyListener.java
        KeyEventConstants.java
        KeyListenerPageChanger.java
        KeyListenerPageColumnChanger.java
        MouseWheelCurrentPageListener.java
        MouseWheelListenerPageChanger.java
        MyAnnotationCallback.java
        MyGUISecurityCallback.java
        PageNumberTextFieldInputVerifier.java
        PageNumberTextFieldKeyListener.java
        PageThumbnailComponent.java
        PermissionsDialog.java
        PrintHelper.java
        PrintJobWatcher.java
        PrinterTask.java
        SwingController.java
        SwingViewBuilder.java
        SwingWorker.java
        TextExtractionGlue.java
        ToolbarLayout.java
        UndoCaretaker.java
        ViewModel.java
        WindowManagementCallback.java
        fonts
        FindFontsTask.java
        FontDialog.java
        search
        DocumentSearchControllerImpl.java
        DocumentSearchModelImpl.java
        tools
        AnnotationSelectionHandler.java
        CircleAnnotationHandler.java
        CommonToolHandler.java
        DynamicZoomHandler.java
        FreeTextAnnotationHandler.java
        HighLightAnnotationHandler.java
        InkAnnotationHandler.java
        LineAnnotationHandler.java
        LineArrowAnnotationHandler.java
        LinkAnnotationHandler.java
        MouseWheelZoom.java
        PanningHandler.java
        SelectionBoxHandler.java
        SquareAnnotationHandler.java
        StrikeOutAnnotationHandler.java
        TextAnnotationHandler.java
        TextSelection.java
        TextSelectionPageHandler.java
        TextSelectionViewHandler.java
        ToolHandler.java
        UnderLineAnnotationHandler.java
        ZoomInPageHandler.java
        ZoomInViewHandler.java
        ZoomOutPageHandler.java
        utility
        annotation
        ActionsPanel.java
        AnnotationDialogAdapter.java
        AnnotationPanel.java
        AnnotationPanelAdapter.java
        AnnotationProperties.java
        BorderPanel.java
        CircleAnnotationPanel.java
        FlagsPanel.java
        FreeTextAnnotationPanel.java
        GoToActionDialog.java
        InkAnnotationPanel.java
        LineAnnotationPanel.java
        LinkAnnotationPanel.java
        NameJTree.java
        NameTreeDialog.java
        NameTreeNode.java
        SquareAnnotationPanel.java
        TextAnnotationPanel.java
        TextMarkupAnnotationPanel.java
        ValueLabelItem.java
        attachment
        AttachmentPanel.java
        FileTableModel.java
        layers
        LayersPanel.java
        LayersTree.java
        LayersTreeNode.java
        outline
        OutlineItemTreeNode.java
        OutlinesTree.java
        search
        SearchPanel.java
        signatures
        SigPropertyTreeNode.java
        SigVerificationTask.java
        SignatureCellRender.java
        SignatureCertTreeNode.java
        SignatureTreeNode.java
        SignatureUtilities.java
        SignaturesPanel.java
        SignaturesTree.java
        thumbs
        ThumbnailsPanel.java
        views
        AbstractDocumentView.java
        AbstractDocumentViewModel.java
        AbstractPageViewComponent.java
        AnnotationCallback.java
        AnnotationComponent.java
        CollectionDocumentView.java
        Controller.java
        DocumentView.java
        DocumentViewComponent.java
        DocumentViewController.java
        DocumentViewControllerImpl.java
        DocumentViewModel.java
        DocumentViewModelImpl.java
        ModifiedFlowLayout.java
        OneColumnPageView.java
        OnePageView.java
        PageViewComponent.java
        PageViewComponentImpl.java
        PageViewDecorator.java
        ResizableBorder.java
        TwoColumnPageView.java
        TwoPageView.java
        annotations
        AbstractAnnotationComponent.java
        AnnotationComponentFactory.java
        AnnotationState.java
        CircleAnnotationComponent.java
        FreeTextAnnotationComponent.java
        FreeTextArea.java
        InkAnnotationComponent.java
        LineAnnotationComponent.java
        LinkAnnotationComponent.java
        MarkupAnnotationComponent.java
        PolyLineAnnotationComponent.java
        PolygonAnnotationComponent.java
        PopupAnnotationComponent.java
        ScalableField.java
        ScalableJComboBox.java
        ScalableJList.java
        ScalableJScrollPane.java
        ScalablePasswordField.java
        ScalableTextArea.java
        ScalableTextField.java
        SignatureFieldComponent.java
        SquareAnnotationComponent.java
        TextAnnotationComponent.java
        TextMarkupAnnotationComponent.java
        WidgetAnnotationComponent.java
        signatures
        CertificatePropertiesDialog.java
        SignaturePropertiesDialog.java
        SignatureValidationDialog.java
        SignatureValidationPanel.java
        SignatureValidationStatus.java
        SignerInfoPanel.java
        SignerSummaryPanel.java
        listeners
        DefaultPageViewLoadingListener.java
        MetricsPageLoadingListener.java
        PageViewLoadingListener.java
        images
        Images.java
        util
        BareBonesBrowserLaunch.java
        FontPropertiesManager.java
        MacOSAdapter.java
        Parse.java
        PropertiesManager.java
        Resources.java
        SearchTextTask.java
        StringResource.java
        TextExtractionTask.java
        URLAccess.java
        jxlayer
        JXLayer.java
        plaf
        LayerUI.java
        viewer
        Launcher.java
        Main.java
        SplashWindow.java
        WindowManager.java

package org.icepdf.os.examples.extraction;
/*
 * Copyright 2006-2017 ICEsoft Technologies Canada Corp.
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the
 * License. You may obtain a copy of the License at
 *
 *        http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing,
 * software distributed under the License is distributed on an "AS
 * IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either
 * express or implied. See the License for the specific language
 * governing permissions and limitations under the License.
 */

import org.icepdf.core.exceptions.PDFException;
import org.icepdf.core.exceptions.PDFSecurityException;
import org.icepdf.core.pobjects.Document;
import org.icepdf.core.pobjects.graphics.text.LineText;
import org.icepdf.core.pobjects.graphics.text.PageText;
import org.icepdf.ri.util.FontPropertiesManager;
import org.icepdf.ri.util.PropertiesManager;

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileWriter;
import java.io.IOException;
import java.util.ArrayList;
import java.util.ResourceBundle;

/**
 * The <code>PageTextExtraction</code> class is an example of how to extract
 * text from a PDF document.  A file specified at the command line is opened
 * and any text in the first page's content is saved to a text file.
 *
 * @since 2.0
 */
public class PageTextExtraction {
    public static void main(String[] args) {

        // Get a file from the command line to open
        String filePath = args[0];

        // read/store the font cache.
        ResourceBundle messageBundle = ResourceBundle.getBundle(
                PropertiesManager.DEFAULT_MESSAGE_BUNDLE);
        PropertiesManager properties = new PropertiesManager(System.getProperties(),
                ResourceBundle.getBundle(PropertiesManager.DEFAULT_MESSAGE_BUNDLE));
        new FontPropertiesManager(properties, System.getProperties(), messageBundle);

        // open the url
        Document document = new Document();
        try {
            document.setFile(filePath);
        } catch (PDFException ex) {
            System.out.println("Error parsing PDF document " + ex);
        } catch (PDFSecurityException ex) {
            System.out.println("Error encryption not supported " + ex);
        } catch (FileNotFoundException ex) {
            System.out.println("Error file not found " + ex);
        } catch (IOException ex) {
            System.out.println("Error handling PDF document " + ex);
        }

        try {
            // create a file to write the extracted text to
            File file = new File("extracted_text.txt");
            FileWriter fileWriter = new FileWriter(file);

            // Get text from the first page of the document, assuming that there
            // is text to extract.
            for (int pageNumber = 0, max = document.getNumberOfPages();
                 pageNumber < max; pageNumber++) {
                PageText pageText = document.getPageText(pageNumber);
                System.out.println("Extracting page text: " + pageNumber);
                if (pageText != null && pageText.getPageLines() != null) {
                    ArrayList<LineText> pageLines = pageText.getPageLines();
                    for (LineText lineText : pageLines) {
                        fileWriter.write(lineText.toString());
                        fileWriter.write('\n');
                    }
                }
            }

            // close the writer
            fileWriter.close();

        } catch (IOException ex) {
            System.out.println("Error writing to file " + ex);
        } catch (InterruptedException ex) {
            System.out.println("Error paring page " + ex);
        }

        // clean up resources
        document.dispose();
    }
}