ExtractText.java example

Explorer

PDF-to-unusual-HTML-master
- PDF-to-unusual-HTML
  - src
    - com
      - neumino
        pdftounusualhtml
        ConvertPdf.java
        InterruptTimerTask.java
        Jdbc.java
        Line.java
        Page.java
        Pdf2Json.java
        ProcessTimeout.java
        Structure.java
        Word.java
    - org
      - apache
        pdfbox
        ConvertColorspace.java
        Decrypt.java
        Encrypt.java
        ExportFDF.java
        ExportXFDF.java
        ExtractImages.java
        ExtractText.java
        ImportFDF.java
        ImportXFDF.java
        Overlay.java
        PDFBox.java
        PDFDebugger.java
        PDFMerger.java
        PDFReader.java
        PDFSplit.java
        PDFToImage.java
        PdfDecompressor.java
        PrintPDF.java
        TextToPDF.java
        Version.java
        WriteDecodedDoc.java
        cos
        COSArray.java
        COSBase.java
        COSBoolean.java
        COSDictionary.java
        COSDictionaryLateBinding.java
        COSDocument.java
        COSFloat.java
        COSInteger.java
        COSName.java
        COSNull.java
        COSNumber.java
        COSObject.java
        COSStream.java
        COSString.java
        COSUnread.java
        ICOSVisitor.java
        encoding
        AFMEncoding.java
        DictionaryEncoding.java
        Encoding.java
        EncodingManager.java
        MacRomanEncoding.java
        PdfDocEncoding.java
        StandardEncoding.java
        Type1Encoding.java
        WinAnsiEncoding.java
        conversion
        CJKConverter.java
        CJKEncoding.java
        CMapSubstitution.java
        EncodingConversionManager.java
        EncodingConverter.java
        encryption
        ARCFour.java
        DocumentEncryption.java
        PDFEncryption.java
        examples
        AbstractExample.java
        fdf
        PrintFields.java
        SetField.java
        pdmodel
        AddImageToPDF.java
        AddJavascript.java
        AddMessageToEachPage.java
        AddMetadataFromDocInfo.java
        Annotation.java
        CreateBlankPDF.java
        CreateBookmarks.java
        CreateLandscapePDF.java
        EmbeddedFiles.java
        ExtractMetadata.java
        GoToSecondBookmarkOnOpen.java
        HelloWorld.java
        HelloWorldTTF.java
        HelloWorldType1AfmPfb.java
        ImageToPDF.java
        PrintBookmarks.java
        PrintDocumentMetaData.java
        PrintURLs.java
        RemoveFirstPage.java
        ReplaceString.java
        ReplaceURLs.java
        RubberStamp.java
        RubberStampWithImage.java
        ShowColorBoxes.java
        UsingTextMatrix.java
        persistence
        CopyDoc.java
        signature
        ShowSignature.java
        util
        ExtractTextByArea.java
        PrintImageLocations.java
        PrintTextLocations.java
        RemoveAllText.java
        exceptions
        COSVisitorException.java
        CryptographyException.java
        InvalidPasswordException.java
        OutlineNotLocalException.java
        SignatureException.java
        WrappedException.java
        WrappedIOException.java
        filter
        ASCII85Filter.java
        ASCIIHexFilter.java
        CCITTFaxDecodeFilter.java
        CryptFilter.java
        DCTFilter.java
        Filter.java
        FilterManager.java
        FlateFilter.java
        IdentityFilter.java
        JBIG2Filter.java
        JPXFilter.java
        LZWDictionary.java
        LZWFilter.java
        LZWNode.java
        RunLengthDecodeFilter.java
        TIFFFaxDecoder.java
        io
        ASCII85InputStream.java
        ASCII85OutputStream.java
        ByteArrayPushBackInputStream.java
        FastByteArrayOutputStream.java
        NBitInputStream.java
        NBitOutputStream.java
        PushBackInputStream.java
        RandomAccess.java
        RandomAccessBuffer.java
        RandomAccessFile.java
        RandomAccessFileInputStream.java
        RandomAccessFileOutputStream.java
        pdfparser
        BaseParser.java
        ConformingPDFParser.java
        PDFObjectStreamParser.java
        PDFParser.java
        PDFStreamParser.java
        PDFXrefStreamParser.java
        VisualSignatureParser.java
        XrefTrailerResolver.java
        pdfviewer
        ArrayEntry.java
        MapEntry.java
        PDFPagePanel.java
        PDFTreeCellRenderer.java
        PDFTreeModel.java
        PageDrawer.java
        PageWrapper.java
        ReaderBottomPanel.java
        pdfwriter
        COSFilterInputStream.java
        COSStandardOutputStream.java
        COSWriter.java
        COSWriterXRefEntry.java
        ContentStreamWriter.java
        pdmodel
        ConformingPDDocument.java
        PDDestinationNameTreeNode.java
        PDDocument.java
        PDDocumentCatalog.java
        PDDocumentInformation.java
        PDDocumentNameDictionary.java
        PDEmbeddedFilesNameTreeNode.java
        PDJavascriptNameTreeNode.java
        PDPage.java
        PDPageNode.java
        PDPageable.java
        PDResources.java
        common
        COSArrayList.java
        COSDictionaryMap.java
        COSObjectable.java
        COSStreamArray.java
        DualCOSObjectable.java
        PDDestinationOrAction.java
        PDDictionaryWrapper.java
        PDMatrix.java
        PDMemoryStream.java
        PDMetadata.java
        PDNameTreeNode.java
        PDNamedTextStream.java
        PDNumberTreeNode.java
        PDObjectStream.java
        PDPageLabelRange.java
        PDPageLabels.java
        PDRange.java
        PDRectangle.java
        PDStream.java
        PDTextStream.java
        PDTypedDictionaryWrapper.java
        XrefEntry.java
        filespecification
        PDComplexFileSpecification.java
        PDEmbeddedFile.java
        PDFileSpecification.java
        PDSimpleFileSpecification.java
        function
        PDFunction.java
        PDFunctionType0.java
        PDFunctionType2.java
        PDFunctionType3.java
        PDFunctionType4.java
        documentinterchange
        logicalstructure
        PDAttributeObject.java
        PDDefaultAttributeObject.java
        PDMarkInfo.java
        PDMarkedContentReference.java
        PDObjectReference.java
        PDStructureElement.java
        PDStructureNode.java
        PDStructureTreeRoot.java
        PDUserAttributeObject.java
        PDUserProperty.java
        Revisions.java
        markedcontent
        PDMarkedContent.java
        prepress
        PDBoxStyle.java
        taggedpdf
        PDArtifactMarkedContent.java
        PDExportFormatAttributeObject.java
        PDFourColours.java
        PDLayoutAttributeObject.java
        PDListAttributeObject.java
        PDPrintFieldAttributeObject.java
        PDStandardAttributeObject.java
        PDTableAttributeObject.java
        StandardStructureTypes.java
        edit
        PDPageContentStream.java
        encryption
        AccessPermission.java
        BadSecurityHandlerException.java
        DecryptionMaterial.java
        PDCryptFilterDictionary.java
        PDEncryptionDictionary.java
        PDEncryptionManager.java
        PDStandardEncryption.java
        ProtectionPolicy.java
        PublicKeyDecryptionMaterial.java
        PublicKeyProtectionPolicy.java
        PublicKeyRecipient.java
        PublicKeySecurityHandler.java
        SecurityHandler.java
        SecurityHandlersManager.java
        StandardDecryptionMaterial.java
        StandardProtectionPolicy.java
        StandardSecurityHandler.java
        fdf
        FDFAnnotation.java
        FDFAnnotationCaret.java
        FDFAnnotationCircle.java
        FDFAnnotationFileAttachment.java
        FDFAnnotationFreeText.java
        FDFAnnotationHighlight.java
        FDFAnnotationInk.java
        FDFAnnotationLine.java
        FDFAnnotationPolygon.java
        FDFAnnotationPolyline.java
        FDFAnnotationSound.java
        FDFAnnotationSquare.java
        FDFAnnotationSquiggly.java
        FDFAnnotationStamp.java
        FDFAnnotationStrikeOut.java
        FDFAnnotationText.java
        FDFAnnotationUnderline.java
        FDFCatalog.java
        FDFDictionary.java
        FDFDocument.java
        FDFField.java
        FDFIconFit.java
        FDFJavaScript.java
        FDFNamedPageReference.java
        FDFOptionElement.java
        FDFPage.java
        FDFPageInfo.java
        FDFTemplate.java
        font
        FontManager.java
        PDCIDFont.java
        PDCIDFontType0Font.java
        PDCIDFontType2Font.java
        PDFont.java
        PDFontDescriptor.java
        PDFontDescriptorAFM.java
        PDFontDescriptorDictionary.java
        PDFontFactory.java
        PDMMType1Font.java
        PDSimpleFont.java
        PDTrueTypeFont.java
        PDType0Font.java
        PDType1AfmPfbFont.java
        PDType1CFont.java
        PDType1Font.java
        PDType3Font.java
        Type3StreamParser.java
        graphics
        PDExtendedGraphicsState.java
        PDFontSetting.java
        PDGraphicsState.java
        PDLineDashPattern.java
        PDShading.java
        color
        ColorSpaceCMYK.java
        ColorSpaceCalRGB.java
        PDCalGray.java
        PDCalRGB.java
        PDColorSpace.java
        PDColorSpaceFactory.java
        PDColorState.java
        PDDeviceCMYK.java
        PDDeviceGray.java
        PDDeviceN.java
        PDDeviceNAttributes.java
        PDDeviceRGB.java
        PDGamma.java
        PDICCBased.java
        PDIndexed.java
        PDLab.java
        PDPattern.java
        PDSeparation.java
        PDTristimulus.java
        optionalcontent
        PDOptionalContentGroup.java
        PDOptionalContentProperties.java
        predictor
        Average.java
        None.java
        Optimum.java
        Paeth.java
        PredictorAlgorithm.java
        Sub.java
        Up.java
        xobject
        CompositeImage.java
        PDCcitt.java
        PDInlinedImage.java
        PDJpeg.java
        PDPixelMap.java
        PDXObject.java
        PDXObjectForm.java
        PDXObjectImage.java
        interactive
        action
        PDActionFactory.java
        PDAdditionalActions.java
        PDAnnotationAdditionalActions.java
        PDDocumentCatalogAdditionalActions.java
        PDFormFieldAdditionalActions.java
        PDPageAdditionalActions.java
        type
        PDAction.java
        PDActionGoTo.java
        PDActionJavaScript.java
        PDActionLaunch.java
        PDActionRemoteGoTo.java
        PDActionURI.java
        PDURIDictionary.java
        PDWindowsLaunchParams.java
        annotation
        PDAnnotation.java
        PDAnnotationFileAttachment.java
        PDAnnotationLine.java
        PDAnnotationLink.java
        PDAnnotationMarkup.java
        PDAnnotationPopup.java
        PDAnnotationRubberStamp.java
        PDAnnotationSquareCircle.java
        PDAnnotationText.java
        PDAnnotationTextMarkup.java
        PDAnnotationUnknown.java
        PDAnnotationWidget.java
        PDAppearanceCharacteristicsDictionary.java
        PDAppearanceDictionary.java
        PDAppearanceStream.java
        PDBorderEffectDictionary.java
        PDBorderStyleDictionary.java
        PDExternalDataDictionary.java
        digitalsignature
        PDSignature.java
        SignatureInterface.java
        SignatureOptions.java
        documentnavigation
        destination
        PDDestination.java
        PDNamedDestination.java
        PDPageDestination.java
        PDPageFitDestination.java
        PDPageFitHeightDestination.java
        PDPageFitRectangleDestination.java
        PDPageFitWidthDestination.java
        PDPageXYZDestination.java
        outline
        PDDocumentOutline.java
        PDOutlineItem.java
        PDOutlineNode.java
        form
        PDAcroForm.java
        PDAppearance.java
        PDCheckbox.java
        PDChoiceButton.java
        PDChoiceField.java
        PDField.java
        PDFieldFactory.java
        PDPushButton.java
        PDRadioCollection.java
        PDSignature.java
        PDSignatureField.java
        PDTextbox.java
        PDUnknownField.java
        PDVariableText.java
        PDXFA.java
        measurement
        PDMeasureDictionary.java
        PDNumberFormatDictionary.java
        PDRectlinearMeasureDictionary.java
        PDViewportDictionary.java
        pagenavigation
        PDThread.java
        PDThreadBead.java
        viewerpreferences
        PDViewerPreferences.java
        markedcontent
        PDPropertyList.java
        text
        PDTextState.java
        persistence
        util
        COSHEXTable.java
        COSObjectKey.java
        util
        BitFlagHelper.java
        DateConverter.java
        ErrorLogger.java
        ExtensionFileFilter.java
        ICU4JImpl.java
        ImageParameters.java
        LayerUtility.java
        MapUtil.java
        Matrix.java
        PDFCloneUtility.java
        PDFHighlighter.java
        PDFImageWriter.java
        PDFMarkedContentExtractor.java
        PDFMergerUtility.java
        PDFOperator.java
        PDFStreamEngine.java
        PDFText2HTML.java
        PDFTextStripper.java
        PDFTextStripperByArea.java
        PageExtractor.java
        PositionWrapper.java
        ResourceLoader.java
        Splitter.java
        StringUtil.java
        TextNormalize.java
        TextPosition.java
        TextPositionComparator.java
        XMLUtil.java
        operator
        BeginMarkedContentSequence.java
        BeginMarkedContentSequenceWithProperties.java
        BeginText.java
        CloseAndStrokePath.java
        Concatenate.java
        EndMarkedContentSequence.java
        EndText.java
        GRestore.java
        GSave.java
        Invoke.java
        MoveAndShow.java
        MoveText.java
        MoveTextSetLeading.java
        NextLine.java
        OperatorProcessor.java
        SetCharSpacing.java
        SetGraphicsStateParameters.java
        SetHorizontalTextScaling.java
        SetLineCapStyle.java
        SetLineDashPattern.java
        SetLineJoinStyle.java
        SetLineMiterLimit.java
        SetLineWidth.java
        SetMatrix.java
        SetMoveAndShow.java
        SetNonStrokingCMYKColor.java
        SetNonStrokingCalRGBColor.java
        SetNonStrokingColor.java
        SetNonStrokingColorSpace.java
        SetNonStrokingDeviceN.java
        SetNonStrokingGrayColor.java
        SetNonStrokingICCBasedColor.java
        SetNonStrokingRGBColor.java
        SetNonStrokingSeparation.java
        SetStrokingCMYKColor.java
        SetStrokingCalRGBColor.java
        SetStrokingColor.java
        SetStrokingColorSpace.java
        SetStrokingDeviceN.java
        SetStrokingGrayColor.java
        SetStrokingICCBasedColor.java
        SetStrokingRGBColor.java
        SetStrokingSeparation.java
        SetTextFont.java
        SetTextLeading.java
        SetTextRenderingMode.java
        SetTextRise.java
        SetWordSpacing.java
        ShowText.java
        ShowTextGlyph.java
        pagedrawer
        AppendRectangleToPath.java
        BeginInlineImage.java
        ClipEvenOddRule.java
        ClipNonZeroRule.java
        CloseFillEvenOddAndStrokePath.java
        CloseFillNonZeroAndStrokePath.java
        ClosePath.java
        CurveTo.java
        CurveToReplicateFinalPoint.java
        CurveToReplicateInitialPoint.java
        EndPath.java
        FillEvenOddAndStrokePath.java
        FillEvenOddRule.java
        FillNonZeroAndStrokePath.java
        FillNonZeroRule.java
        Invoke.java
        LineTo.java
        MoveTo.java
        SHFill.java
        SetLineCapStyle.java
        SetLineDashPattern.java
        SetLineJoinStyle.java
        SetLineMiterLimit.java
        SetLineWidth.java
        StrokePath.java

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *      http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package org.apache.pdfbox;

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.net.MalformedURLException;
import java.net.URL;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.encryption.AccessPermission;
import org.apache.pdfbox.pdmodel.encryption.StandardDecryptionMaterial;
import org.apache.pdfbox.util.PDFText2HTML;
import org.apache.pdfbox.util.PDFTextStripper;

/**
 * This is the main program that simply parses the pdf document and transforms it
 * into text.
 *
 * @author <a href="mailto:ben@benlitchfield.com">Ben Litchfield</a>
 * @version $Revision: 1.14 $
 */
public class ExtractText
{
    private static final String PASSWORD = "-password";
    private static final String ENCODING = "-encoding";
    private static final String CONSOLE = "-console";
    private static final String START_PAGE = "-startPage";
    private static final String END_PAGE = "-endPage";
    private static final String SORT = "-sort";
    private static final String IGNORE_BEADS = "-ignoreBeads";
    private static final String DEBUG = "-debug";
    private static final String HTML = "-html";  // jjb - added simple HTML output
    private static final String FORCE = "-force"; //enables pdfbox to skip corrupt objects

    /*
     * debug flag
     */
    private boolean debug = false;

    /**
     * private constructor.
    */
    private ExtractText()
    {
        //static class
    }

    /**
     * Infamous main method.
     *
     * @param args Command line arguments, should be one and a reference to a file.
     *
     * @throws Exception If there is an error parsing the document.
     */
    public static void main( String[] args ) throws Exception
    {
        ExtractText extractor = new ExtractText();
        extractor.startExtraction(args);
    }

    public void startExtraction( String[] args ) throws Exception
    {
        boolean toConsole = false;
        boolean toHTML = false;
        boolean force = false;
        boolean sort = false;
        boolean separateBeads = true;
        String password = "";
        String encoding = null;
        String pdfFile = null;
        String outputFile = null;
        // Defaults to text files
        String ext = ".txt";
        int startPage = 1;
        int endPage = Integer.MAX_VALUE;
        for( int i=0; i<args.length; i++ )
        {
            if( args[i].equals( PASSWORD ) )
            {
                i++;
                if( i >= args.length )
                {
                    usage();
                }
                password = args[i];
            }
            else if( args[i].equals( ENCODING ) )
            {
                i++;
                if( i >= args.length )
                {
                    usage();
                }
                encoding = args[i];
            }
            else if( args[i].equals( START_PAGE ) )
            {
                i++;
                if( i >= args.length )
                {
                    usage();
                }
                startPage = Integer.parseInt( args[i] );
            }
            else if( args[i].equals( HTML ) )
            {
                toHTML = true;
                ext = ".html";
            }
            else if( args[i].equals( SORT ) )
            {
                sort = true;
            }
            else if( args[i].equals( IGNORE_BEADS ) )
            {
                separateBeads = false;
            }
            else if( args[i].equals( DEBUG ) )
            {
                debug = true;
            }
            else if( args[i].equals( END_PAGE ) )
            {
                i++;
                if( i >= args.length )
                {
                    usage();
                }
                endPage = Integer.parseInt( args[i] );
            }
            else if( args[i].equals( CONSOLE ) )
            {
                toConsole = true;
            }
            else if( args[i].equals( FORCE ) )
            {
                force = true;
            }
            else
            {
                if( pdfFile == null )
                {
                    pdfFile = args[i];
                }
                else
                {
                    outputFile = args[i];
                }
            }
        }

        if( pdfFile == null )
        {
            usage();
        }
        else
        {

            Writer output = null;
            PDDocument document = null;
            try
            {
                long startTime = startProcessing("Loading PDF "+pdfFile);
                try
                {
                    //basically try to load it from a url first and if the URL
                    //is not recognized then try to load it from the file system.
                    URL url = new URL( pdfFile );
                    document = PDDocument.load(url, force);
                    String fileName = url.getFile();
                    if( outputFile == null && fileName.length() >4 )
                    {
                        outputFile = new File( fileName.substring( 0, fileName.length() -4 ) + ext ).getName();
                    }
                }
                catch( MalformedURLException e )
                {
                    document = PDDocument.load(pdfFile, force);
                    if( outputFile == null && pdfFile.length() >4 )
                    {
                        outputFile = pdfFile.substring( 0, pdfFile.length() -4 ) + ext;
                    }
                }
                stopProcessing("Time for loading: ", startTime);

                if( document.isEncrypted() )
                {
                    StandardDecryptionMaterial sdm = new StandardDecryptionMaterial( password );
                    document.openProtection( sdm );
                    AccessPermission ap = document.getCurrentAccessPermission();

                    if( ! ap.canExtractContent() )
                    {
                        throw new IOException( "You do not have permission to extract text" );
                    }
                }

                if ((encoding == null) && (toHTML))
                {
                    encoding = "UTF-8";
                }

                if( toConsole )
                {
                    output = new OutputStreamWriter( System.out );
                }
                else
                {
                    if( encoding != null )
                    {
                        output = new OutputStreamWriter(
                                new FileOutputStream( outputFile ), encoding );
                    }
                    else
                    {
                        //use default encoding
                        output = new OutputStreamWriter(
                                new FileOutputStream( outputFile ) );
                    }
                }

                PDFTextStripper stripper = null;
                if(toHTML)
                {
                    stripper = new PDFText2HTML(encoding);
                }
                else
                {
                    stripper = new PDFTextStripper(encoding);
                }
                stripper.setForceParsing( force );
                stripper.setSortByPosition( sort );
                stripper.setShouldSeparateByBeads( separateBeads );
                stripper.setStartPage( startPage );
                stripper.setEndPage( endPage );

                startTime = startProcessing("Starting text extraction");
                stripper.writeText( document, output );
                stopProcessing("Time for extraction: ", startTime);
            }
            finally
            {
                if( output != null )
                {
                    output.close();
                }
                if( document != null )
                {
                    document.close();
                }
            }
        }
    }

    private long startProcessing(String message) {
        if (debug) 
        {
            System.err.println(message);
        }
        return System.currentTimeMillis();
    }
    
    private void stopProcessing(String message, long startTime) {
        if (debug)
        {
            long stopTime = System.currentTimeMillis();
            float elapsedTime = ((float)(stopTime - startTime))/1000;
            System.err.println(message + elapsedTime + " seconds");
        }
    }

    /**
     * This will print the usage requirements and exit.
     */
    private static void usage()
    {
        System.err.println( "Usage: java -jar pdfbox-app-x.y.z.jar ExtractText [OPTIONS] <PDF file> [Text File]\n" +
            "  -password  <password>        Password to decrypt document\n" +
            "  -encoding  <output encoding> (ISO-8859-1,UTF-16BE,UTF-16LE,...)\n" +
            "  -console                     Send text to console instead of file\n" +
            "  -html                        Output in HTML format instead of raw text\n" +
            "  -sort                        Sort the text before writing\n" +
            "  -ignoreBeads                 Disables the separation by beads\n" +
            "  -force                       Enables pdfbox to ignore corrupt objects\n" +
            "  -debug                       Enables debug output about the time consumption of every stage\n" +
            "  -startPage <number>          The first page to start extraction(1 based)\n" +
            "  -endPage <number>            The last page to extract(inclusive)\n" +
            "  <PDF file>                   The PDF document to use\n" +
            "  [Text File]                  The file to write the text to\n"
            );
        System.exit( 1 );
    }
}