TextExtractor.java example

Explorer

PDFAInspector-master
- PdfInspector
  - src
    - org
      - json
        CDL.java
        Cookie.java
        CookieList.java
        HTTP.java
        HTTPTokener.java
        JSONArray.java
        JSONException.java
        JSONML.java
        JSONObject.java
        JSONString.java
        JSONStringer.java
        JSONTokener.java
        JSONWriter.java
        Test.java
        XML.java
        XMLTokener.java
    - pdfainspector
- itext-5.2.1
  - com
    - itextpdf
      - awt
        AsianFontMapper.java
        DefaultFontMapper.java
        FontMapper.java
        PdfGraphics2D.java
        PdfPrinterGraphics2D.java
        geom
        AffineTransform.java
        CubicCurve2D.java
        Dimension.java
        Dimension2D.java
        FlatteningPathIterator.java
        GeneralPath.java
        IllegalPathStateException.java
        Line2D.java
        NoninvertibleTransformException.java
        PathIterator.java
        Point.java
        Point2D.java
        PolylineShape.java
        PolylineShapeIterator.java
        QuadCurve2D.java
        Rectangle.java
        Rectangle2D.java
        RectangularShape.java
        Shape.java
        gl
        Crossing.java
        misc
        HashCode.java
        Messages.java
        RenderingHints.java
      - text
        Anchor.java
        Annotation.java
        BadElementException.java
        BaseColor.java
        Chapter.java
        ChapterAutoNumber.java
        Chunk.java
        DocListener.java
        DocWriter.java
        Document.java
        DocumentException.java
        Element.java
        ElementListener.java
        ExceptionConverter.java
        Font.java
        FontFactory.java
        FontFactoryImp.java
        FontProvider.java
        GreekList.java
        Header.java
        Image.java
        ImgCCITT.java
        ImgJBIG2.java
        ImgRaw.java
        ImgTemplate.java
        ImgWMF.java
        Jpeg.java
        Jpeg2000.java
        LargeElement.java
        List.java
        ListItem.java
        MarkedObject.java
        MarkedSection.java
        Meta.java
        PageSize.java
        Paragraph.java
        Phrase.java
        Rectangle.java
        RectangleReadOnly.java
        RomanList.java
        Section.java
        SpecialSymbol.java
        SplitCharacter.java
        TextElementArray.java
        Utilities.java
        WritableDirectElement.java
        ZapfDingbatsList.java
        ZapfDingbatsNumberList.java
        api
        Indentable.java
        Spaceable.java
        WriterOperation.java
        package-info.java
        error_messages
        MessageLocalization.java
        exceptions
        BadPasswordException.java
        IllegalPdfSyntaxException.java
        InvalidPdfException.java
        UnsupportedPdfException.java
        factories
        GreekAlphabetFactory.java
        RomanAlphabetFactory.java
        RomanNumberFactory.java
        html
        HtmlEncoder.java
        HtmlTags.java
        HtmlUtilities.java
        WebColors.java
        simpleparser
        CellWrapper.java
        ChainedProperties.java
        ElementFactory.java
        HTMLTagProcessor.java
        HTMLTagProcessors.java
        HTMLWorker.java
        ImageProcessor.java
        ImageProvider.java
        ImageStore.java
        LinkProcessor.java
        StyleSheet.java
        TableWrapper.java
        log
        Level.java
        Logger.java
        LoggerFactory.java
        NoOpLogger.java
        SysoLogger.java
        pdf
        AcroFields.java
        ArabicLigaturizer.java
        BadPdfFormatException.java
        Barcode.java
        Barcode128.java
        Barcode39.java
        BarcodeCodabar.java
        BarcodeDatamatrix.java
        BarcodeEAN.java
        BarcodeEANSUPP.java
        BarcodeInter25.java
        BarcodePDF417.java
        BarcodePostnet.java
        BarcodeQRCode.java
        BaseField.java
        BaseFont.java
        BidiLine.java
        BidiOrder.java
        ByteBuffer.java
        CFFFont.java
        CFFFontSubset.java
        CJKFont.java
        CMYKColor.java
        CMapAwareDocumentFont.java
        ColorDetails.java
        ColumnText.java
        CrlClient.java
        CrlClientImp.java
        DefaultSplitCharacter.java
        DocumentFont.java
        EnumerateTTC.java
        ExtendedColor.java
        ExtraEncoding.java
        FdfReader.java
        FdfWriter.java
        FilterHandlers.java
        FontDetails.java
        FontSelector.java
        GlyphList.java
        GrayColor.java
        HyphenationAuto.java
        HyphenationEvent.java
        ICC_Profile.java
        IntHashtable.java
        LZWDecoder.java
        LongHashtable.java
        LtvTimestamp.java
        LtvVerification.java
        MappedRandomAccessFile.java
        MultiColumnText.java
        NumberArray.java
        OcspClient.java
        OcspClientBouncyCastle.java
        OutputStreamCounter.java
        OutputStreamEncryption.java
        PRAcroForm.java
        PRIndirectReference.java
        PRStream.java
        PRTokeniser.java
        PageResources.java
        PatternColor.java
        PdfAcroForm.java
        PdfAction.java
        PdfAnnotation.java
        PdfAppearance.java
        PdfArray.java
        PdfBoolean.java
        PdfBorderArray.java
        PdfBorderDictionary.java
        PdfChunk.java
        PdfColor.java
        PdfConcatenate.java
        PdfContentByte.java
        PdfContentParser.java
        PdfContents.java
        PdfCopy.java
        PdfCopyFields.java
        PdfCopyFieldsImp.java
        PdfCopyForms.java
        PdfCopyFormsImp.java
        PdfDashPattern.java
        PdfDate.java
        PdfDestination.java
        PdfDeveloperExtension.java
        PdfDictionary.java
        PdfDocument.java
        PdfEFStream.java
        PdfEncodings.java
        PdfEncryption.java
        PdfEncryptor.java
        PdfException.java
        PdfFileSpecification.java
        PdfFont.java
        PdfFormField.java
        PdfFormXObject.java
        PdfFunction.java
        PdfGState.java
        PdfICCBased.java
        PdfImage.java
        PdfImportedPage.java
        PdfIndirectObject.java
        PdfIndirectReference.java
        PdfLayer.java
        PdfLayerMembership.java
        PdfLine.java
        PdfLister.java
        PdfLiteral.java
        PdfMediaClipData.java
        PdfName.java
        PdfNameTree.java
        PdfNull.java
        PdfNumber.java
        PdfNumberTree.java
        PdfOCG.java
        PdfOCProperties.java
        PdfObject.java
        PdfOutline.java
        PdfPCell.java
        PdfPCellEvent.java
        PdfPKCS7.java
        PdfPRow.java
        PdfPSXObject.java
        PdfPTable.java
        PdfPTableEvent.java
        PdfPTableEventSplit.java
        PdfPage.java
        PdfPageElement.java
        PdfPageEvent.java
        PdfPageEventHelper.java
        PdfPageLabels.java
        PdfPages.java
        PdfPattern.java
        PdfPatternPainter.java
        PdfPublicKeyRecipient.java
        PdfPublicKeySecurityHandler.java
        PdfReader.java
        PdfReaderInstance.java
        PdfRectangle.java
        PdfRendition.java
        PdfResources.java
        PdfShading.java
        PdfShadingPattern.java
        PdfSigGenericPKCS.java
        PdfSignature.java
        PdfSignatureAppearance.java
        PdfSmartCopy.java
        PdfSpotColor.java
        PdfStamper.java
        PdfStamperImp.java
        PdfStream.java
        PdfString.java
        PdfStructureElement.java
        PdfStructureTreeRoot.java
        PdfTemplate.java
        PdfTextArray.java
        PdfTransition.java
        PdfTransparencyGroup.java
        PdfVisibilityExpression.java
        PdfWriter.java
        PdfXConformanceException.java
        Pfm2afm.java
        PushbuttonField.java
        RadioCheckField.java
        RandomAccessFileOrArray.java
        SequenceList.java
        ShadingColor.java
        SimpleBookmark.java
        SimpleNamedDestination.java
        SpotColor.java
        StampContent.java
        StandardDecryption.java
        TSAClient.java
        TSAClientBouncyCastle.java
        TextField.java
        TrueTypeFont.java
        TrueTypeFontSubSet.java
        TrueTypeFontUnicode.java
        Type1Font.java
        Type3Font.java
        Type3Glyph.java
        VerticalText.java
        XfaForm.java
        XfdfReader.java
        codec
        Base64.java
        BitFile.java
        BmpImage.java
        CCITTG4Encoder.java
        GifImage.java
        JBIG2Image.java
        JBIG2SegmentReader.java
        LZWCompressor.java
        LZWStringTable.java
        PngImage.java
        PngWriter.java
        TIFFConstants.java
        TIFFDirectory.java
        TIFFFaxDecoder.java
        TIFFFaxDecompressor.java
        TIFFField.java
        TIFFLZWDecoder.java
        TiffImage.java
        TiffWriter.java
        wmf
        InputMeta.java
        MetaBrush.java
        MetaDo.java
        MetaFont.java
        MetaObject.java
        MetaPen.java
        MetaState.java
        Point.java
        collection
        PdfCollection.java
        PdfCollectionField.java
        PdfCollectionItem.java
        PdfCollectionSchema.java
        PdfCollectionSort.java
        PdfTargetDictionary.java
        crypto
        AESCipher.java
        AESCipherCBCnoPad.java
        ARCFOUREncryption.java
        IVGenerator.java
        draw
        DottedLineSeparator.java
        DrawInterface.java
        LineSeparator.java
        VerticalPositionMark.java
        events
        FieldPositioningEvents.java
        IndexEvents.java
        PdfPCellEventForwarder.java
        PdfPTableEventForwarder.java
        PdfPageEventForwarder.java
        fonts
        FontsResourceAnchor.java
        cmaps
        AbstractCMap.java
        CMapByteCid.java
        CMapCache.java
        CMapCidByte.java
        CMapCidUni.java
        CMapParserEx.java
        CMapSequence.java
        CMapToUnicode.java
        CMapUniCid.java
        CidLocation.java
        CidLocationFromByte.java
        CidResource.java
        hyphenation
        ByteVector.java
        CharVector.java
        Hyphen.java
        Hyphenation.java
        HyphenationException.java
        HyphenationTree.java
        Hyphenator.java
        PatternConsumer.java
        SimplePatternParser.java
        TernaryTree.java
        interfaces
        PdfAnnotations.java
        PdfDocumentActions.java
        PdfEncryptionSettings.java
        PdfPageActions.java
        PdfRunDirection.java
        PdfVersion.java
        PdfViewerPreferences.java
        PdfXConformance.java
        internal
        PdfAnnotationsImp.java
        PdfVersionImp.java
        PdfViewerPreferencesImp.java
        PdfXConformanceImp.java
        parser
        ContentByteUtils.java
        ContentOperator.java
        FilteredRenderListener.java
        FilteredTextRenderListener.java
        GraphicsState.java
        ImageRenderInfo.java
        InlineImageInfo.java
        InlineImageUtils.java
        LineSegment.java
        LocationTextExtractionStrategy.java
        MarkedContentInfo.java
        MarkedContentRenderFilter.java
        Matrix.java
        PdfContentReaderTool.java
        PdfContentStreamProcessor.java
        PdfImageObject.java
        PdfReaderContentParser.java
        PdfTextExtractor.java
        RegionTextRenderFilter.java
        RenderFilter.java
        RenderListener.java
        SimpleTextExtractionStrategy.java
        TaggedPdfReaderTool.java
        TextExtractionStrategy.java
        TextMarginFinder.java
        TextRenderInfo.java
        Vector.java
        XObjectDoHandler.java
        qrcode
        BitArray.java
        BitMatrix.java
        BitVector.java
        BlockPair.java
        ByteArray.java
        ByteMatrix.java
        CharacterSetECI.java
        EncodeHintType.java
        Encoder.java
        ErrorCorrectionLevel.java
        FormatInformation.java
        GF256.java
        GF256Poly.java
        MaskUtil.java
        MatrixUtil.java
        Mode.java
        QRCode.java
        QRCodeWriter.java
        ReedSolomonEncoder.java
        ReedSolomonException.java
        Version.java
        WriterException.java
        xml
        XMLUtil.java
        XmlDomWriter.java
        XmlToTxt.java
        simpleparser
        EntitiesToSymbol.java
        EntitiesToUnicode.java
        IanaEncodings.java
        NewLineHandler.java
        SimpleXMLDocHandler.java
        SimpleXMLDocHandlerComment.java
        SimpleXMLParser.java
        handler
        HTMLNewLineHandler.java
        NeverNewLineHandler.java
        xmp
        DublinCoreSchema.java
        LangAlt.java
        PdfA1Schema.java
        PdfSchema.java
        XmpArray.java
        XmpBasicSchema.java
        XmpMMSchema.java
        XmpReader.java
        XmpSchema.java
        XmpWriter.java

package pdfainspector;
import java.io.IOException;

import nu.xom.Attribute;
import nu.xom.Element;

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfReaderContentParser;
import com.itextpdf.text.pdf.parser.SimpleTextExtractionStrategy;
import com.itextpdf.text.pdf.parser.TextExtractionStrategy;

/**
 * Convert text in a PDF to a XOM XML element.
 * @author schiele1
 */
public class TextExtractor {

	/**
	 * Given an iText PDF Reader, extract text from the PDF and store it in a
	 * XOM XML element.
	 * @param reader A reader for the given PDF.
	 * @return A XOM element containing the text.
	 */
	public static Element extractToXML(PdfReader reader){
    	Element root = new Element("Text");
    	
    	// Set up iText's PDF text extraction tools.
    	PdfReaderContentParser parser = new PdfReaderContentParser(reader);
    	TextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
    	// Make an element for each page of text, labeled with the page number.
    	for (int i = 1; i <= reader.getNumberOfPages(); i++) {
    		try{
    			// There are several different extraction strategies available.
    			strategy = parser.processContent(i, new SimpleTextExtractionStrategy());
    			//strategy = parser.processContent(i, new LocationTextExtractionStrategy());
    		}catch(IOException e){}
    		String result = strategy.getResultantText();
    		
    		// If there's text on the page, label it and add it to the root.
    		if(result != null){
    			Element page = new Element("Plaintext");
    			page.addAttribute(new Attribute("Page", Integer.toString(i)));
    			String pageText = "";
    			for(int it = 0; it < result.length(); it++){
    				char c = result.charAt(it);
    				if(c != '\0'){
    					pageText = pageText + c;
    				}
    			}
    			page.appendChild(pageText);
    			root.appendChild(page);
    		}
    	}
    	return root;
	}
}