ExtractTextBasedOnColumns.java example

Explorer

Aspose_Pdf_Java-master
- Aspose.Pdf-for-Java-master
  - Examples
    - src
      - main
        java
        com
        aspose
        pdf
        examples
        AsposePdfExamples
        Annotations
        AddAnnotationToPDF.java
        DeleteAllAnnotationsFromPageOfPDFFile.java
        DeleteParticularAnnotationFromThePDFFile.java
        GetAllAnnotationsFromPageInPDF.java
        GetParticularAnnotationFromPDF.java
        RedactCertainPageRegionWithRedactionAnnotation.java
        StrikeOutWordsUsingStrikeOutAnnotation.java
        Attachments
        AddAttachmentToPDF.java
        DeleteAllAttachmentsFromPDF.java
        DisableFilesCompressionWhenAddingAsEmbeddedResources.java
        GetAttachmentInformation.java
        GetAttachmentsFromPDFDocument.java
        Bookmarks
        AddBookmarkToPDFDocument.java
        AddChildBookmarkToPDFDocument.java
        BookmarkShouldPointToStartOfPage.java
        DeleteBookmarksFromPDFDocument.java
        ExpandedBookmarksWhenViewingDocument.java
        GetBookmarksFromPDFDocument.java
        UpdateBookmarksInPDFDocument.java
        DocumentConversion
        ConvertEPUBFileToPDFFormat.java
        ConvertHTMLToPDFFormat.java
        ConvertPCLToPDFFormat.java
        ConvertPDFFileIntoXPSFormat.java
        ConvertPDFToDOCOrDOCXFormat.java
        ConvertPDFToEPUBFormat.java
        ConvertPDFToExcelWorkbook.java
        ConvertPDFToPDFAFormat.java
        ConvertPDFToPPTX.java
        ConvertPDFToSVGFormat.java
        ConvertPDFToXML.java
        ConvertSVGFileToPDFFormat.java
        ConvertTextFileToPDFFormat.java
        ConvertXMLFileToPDF.java
        ConvertXPSFileToPDFFormat.java
        ConvertXSLFOToPDF.java
        DefaultFontWhenSpecificFontMissing.java
        EscapeHTMLTagsAndSpecialCharacters.java
        GetWarningForFontSubstitution.java
        PDFToEMF.java
        PDFToHTMLAllResourceEmbeddedInSingleResultantStream.java
        PDFToHTMLAvoidSavingImagesInSVGFormat.java
        PDFToHTMLRenderPDFDataLayersAsSeparateHTMLLayerElement.java
        PDFToHTMLSingleHTMLWithAllResourcesEmbedded.java
        PDFToHTMLSpecifyImagesFolder.java
        PDFToHTMLSplittingOutputToMultipageHTML.java
        DocumentObject
        AddLayersToPDFFile.java
        AddTOCToExistingPDF.java
        AddingJavaScriptDOM.java
        ConvertPDFFromRGBColorspaceToGrayscale.java
        ConvertingNonSearchablePDFToSearchablePDFDocument.java
        EmbeddingFontsInExistingPDFFile.java
        EmbeddingFontsWhileCreatingPDF.java
        ExtractFilesFromPDFPortfolio.java
        GetDocumentWindowAndPageDisplayProperties.java
        GetPDFFileInformation.java
        GetSetZoomFactorOfPDFFile.java
        GetXMPMetadataFromPDFFile.java
        OptimizePDFDocumentForWeb.java
        OptimizePDFFileSize.java
        RemoveMetadataFromPDF.java
        SetDocumentWindowAndPageDisplayProperties.java
        SetPDFExpiration.java
        SetPDFFileInformation.java
        TrimWhiteSpaceAroundPage.java
        ValidatePDFDocumentForPDFAStandard.java
        Forms
        AddFormFieldInPDFDocument.java
        AddTooltipToFormField.java
        ConvertDynamicXFAFormToStandardAcroForm.java
        DeleteParticularFormFieldFromPDFDocument.java
        FillFormFieldInPDFDocument.java
        GetFormFieldsFromSpecificRegionOfPDFFile.java
        GetValueFromAnIndividualFieldOfPDFDocument.java
        GetValuesFromAllFieldsInPDFDocument.java
        HowToAddGroupedCheckBoxes.java
        ModifyFormFieldInPDFDocument.java
        MoveFormFieldToNewLocationInPDFFile.java
        SetCustomFormFieldFont.java
        Graphs
        AddLineObjectToPDF.java
        ControllingZOrderOfRectangle.java
        CreateFilledRectangleObject.java
        DrawingLineAcrossThePage.java
        Headings
        ApplyNumberingStyleInHeading.java
        Images
        AddImageToExistingPDFFile.java
        ConvertAnImageToPDF.java
        ConvertPDFPagesToBMPImage.java
        ConvertPDFPagesToJPEGImage.java
        ConvertPDFPagesToPNGImages.java
        ConvertPDFPagesToTIFFImage.java
        ConvertParticularPageRegionToImage.java
        DeleteImageFromPDFResourcesFoundByImagePlacementAbsorber.java
        DeleteImagesFromThePDFFile.java
        ExtractImagesFromThePDFFile.java
        GetNameOfImagesEmbeddedInPDFFile.java
        IdentifyIfImageInsidePDFIsColoredOrBlackAndWhite.java
        ReplaceImageInExistingPDFFile.java
        SettingDPIOrPPIOfImagesInPDF.java
        LinksAndActions
        AddHyperlinkInPDFFile.java
        CreateALinkToAnotherPDFDocument.java
        GetPDFHyperlinkDestination.java
        RemoveDocumentOpenActionFromPDFFile.java
        Miscellaneous
        ChangingColorSpaceOfPDFDocument.java
        GettingProductAndBuildInformation.java
        HowToAddDrawingWithTransparentColor.java
        Pages
        AddImageAsPageBackground.java
        ChangePageOrientation.java
        ConcatenatePDFFiles.java
        DeleteParticularPageFromThePDFFile.java
        DeterminePageColor.java
        GetPageCountOfPDF.java
        GetPageProperties.java
        GetParticularPageInPDFFile.java
        InsertAnEmptyPageIntoPDFFile.java
        SplitPDFFileIntoIndividualPages.java
        UpdatePageDimensions.java
        SecurityAndSignatures
        AddDigitalSignatureToPDFFile.java
        DecryptPDFFileUsingOwnerPassword.java
        EncryptPDFDocumentUsingEncryptionTypes.java
        ExtractingImageFromSignatureField.java
        HowToDetermineIfTheSourcePDFIsPasswordProtected.java
        SetPrivilegesOnAnExistingPDFFile.java
        StampsAndWatermarks
        AddPageNumberStampInPDF.java
        AddingDifferentHeadersInOnePDFFile.java
        AddingImageStampInPDFFile.java
        AddingPDFPageStampInThePDFFile.java
        AddingTextInHeaderOrFooterOfPDFFile.java
        AddingTextStampInPDFFile.java
        ControlImageQualityWhenAddingImageStamp.java
        DefineAlignmentForTextStampObject.java
        Tables
        AddTableInExistingPDFDocument.java
        ForceTableRenderingOnNewPage.java
        ManipulateTablesInExistingPDF.java
        RemoveTablesFromExistingPDF.java
        SetBorderStyleMarginsAndPaddingOfTable.java
        Text
        AddHTMLStringUsingDOM.java
        AddTextToAnExistingPDFFile.java
        ExtractTextBasedOnColumns.java
        ExtractTextFromAllThePagesOfPDFDocument.java
        ExtractTextFromAnParticularPageRegion.java
        ExtractTextFromPDFUsingTextDevice.java
        FindAndReplaceTextByItsLocation.java
        FootNotesAndEndNotes.java
        HowToAddTransparentTextInPDF.java
        ReplaceFontsInExistingPDFFile.java
        ReplaceOnlyFirstOccurrenceOfThePhrase.java
        ReplaceTextInPagesOfPDFDocument.java
        SearchAndGetTextFromPagesUsingRegularExpression.java
        SearchAndGetTextFromThePagesOfPDFDocument.java
        SearchAndGetTextSegmentsFromPagesOfPDF.java
        TextReplacementShouldAutomaticallyRearrangePageContents.java
        AsposePdfFacades
        Annotations
        AddAnnotationInAnExistingPDFFile.java
        DeleteAllAnnotationsBySpecifiedType.java
        ExportAnnotationsFromPDFFileToXFDF.java
        Bookmarks
        CreateBookmarksOfAllPages.java
        CreateBookmarksOfAllPagesWithProperties.java
        ExportBookmarksToXMLFromAnExistingPDFFile.java
        ImportBookmarksFromXMLToAnExistingPDFFile.java
        Document
        AddingJavascriptActionsToExistingPDFFile.java
        GetPDFFilenformation.java
        GetXMPMetadataOfAnExistingPDFFile.java
        ResizePDFPageContents.java
        SetPDFFileInformation.java
        SetViewerPreferenceOfAnExistingPDFFile.java
        SetXMPMetadataOfAnExistingPDF.java
        Forms
        ExportDataToFDFFromAPDFFile.java
        ExportDataToXMLFromAPDFFile.java
        FlattenAllFieldsInExistingPDFFile.java
        Images
        ConvertPDFPagesToDifferentImageFormats.java
        ConvertParticularPageRegionToImageFormat.java
        ExtractImagesFromTheWholePDFToFiles.java
        ReplaceImageInAnExistingPDFFile.java
        PDFPrinting
        PrintPDFFileToDefaultPrinter.java
        Pages
        ConcatenateArrayOfPDFFilesUsingFilePaths.java
        ConcatenateArrayOfPDFFilesUsingStreams.java
        ConcatenatePDFFilesUsingFilePaths.java
        ResizePageContentsOfSpecificPagesInAPDFFile.java
        SecurityAndSignatures
        AddDigitalSignatureInAPDFFile.java
        SetPrivilegesOnAnExistingPDFFile.java
        StampsAndWatermarks
        AddPageNumberInAPDFFile.java
        Text
        AddTextInAnExistingPDFFile.java
        ExtractTextFromARangeOfPages.java
        ExtractTextFromIndividualPagesOfAPDF.java
        ExtractTextFromTheWholePDFFile.java
        ReplaceTextInAnExistingPDFFile.java
        ReplaceTextOnAParticularPageInAnExistingPDFFile.java
        AsposePdfGenerator
        Conversion
        HTMLToPDF.java
        XSLFOToPDF.java
        Documents
        AddJavaScript.java
        AddXMPMetaData.java
        SetDocumentInfo.java
        SetPageTransitionEffect.java
        SetTheAppearance.java
        SetZoomFactor.java
        Paragraphs
        AssignID.java
        RenderParagraph.java
        SetParagraphMargins.java
        Sections
        SetPageBackgroundImage.java
        Text
        CustomTabStops.java
        HtmlTagsInText
        InlineHTMLFromXML.java
        TextFormattingTags.java
        RightToLeftAlignedLanguages.java
        TextFormatting
        ChangeTextFormat.java
        InheritTextFormat.java
        SetTextBackgroundColor.java
        SetTextRenderMode.java
        SetVerticalAlignment.java
        UnderlineOverlineStrikeOut.java
        TextLayout
        CreateLeftHangingTextParagraph.java
        PreserveWhiteSpace.java
        AsposePdfLegacy
        AdvanceFeatures
        AddPageBorders.java
        AddingBookmarksInThePDFDocument.java
        CustomPositioning.java
        ManipulatingMultipleColumns.java
        AttachmentsAndAnnotations
        AttachAnyFileToPDFDocument.java
        AttachNoteAnnotationToPDFDocument.java
        CustomizeThePositionOfNotesPopUpWindow.java
        DocumentConversion
        ConvertPCLFileToPDFFormat.java
        Documents
        AddingJavaScript.java
        SetDocumentInformation.java
        SetPageTransitionEffect.java
        SetTheAppearanceOfTheDocument.java
        SetZoomFactorForTheFirstPageOfTheDocument.java
        FirstApplication
        CreateHelloWorldPDFDocumentThroughAPI.java
        CreateHelloWorldPDFDocumentUsingXML.java
        FontHandling
        UsePDFCoreFonts.java
        UsePostScriptType1Fonts.java
        UseTrueTypeFonts.java
        Graphs
        GraphsFormat.java
        GraphsRotationAndScaling.java
        UsingGraphCoordinates.java
        Headings
        ApplyNumberingStyle.java
        ApplyUserDefinedBullets.java
        SpecifyHeadingLevelAndAutoSequencing.java
        UseSystemDefinedBullets.java
        Hyperlink
        HyperlinkToNonPDFFile.java
        HyperlinkToWebLocation.java
        HyperlinksToPagesInAnotherPDFDocument.java
        HyperlinksToPagesInTheSamePDFDocument.java
        Images
        LoadImageFromLocalDisk.java
        LoadImageFromMemory.java
        LoadImageFromWebURL.java
        UseCCITTFaxImage.java
        ReplaceableSymbols
        SymbolsUsage.java
        Sections
        AssignIDToParagraph.java
        RenderTheParagraphInNewPage.java
        SetPageBackgroundImage.java
        SetPageHeaderAndFooter.java
        SetPageSizeAndMargins.java
        SetParagraphMargins.java
        SecurityFeatures
        AllowOrDisallowPrivilegesOnPDFDocument.java
        SetEncryptionUpto128Bits.java
        SetUserOrMasterPassword.java
        Tables
        ControlTableAndRowSplitting.java
        CreateNestedTable.java
        HowToDetermineIfTableWillBreakInCurrentPage.java
        SetBorderStyleMarginsAndPaddingOfTheTable.java
        SetWidthAndSpanOfTheColumn.java
        UsingDefaultCellInformation.java
        TextFormatting
        ChangeTextFormatForAllSegments.java
        InheritingTextFormat.java
        SetTextBackgroundColor.java
        SetTextRenderingMode.java
        SetVerticalAlignmentOfParagraphToBaselineOrTopline.java
        UnderlineOverlineAndStrikeOutTheText.java
        TextLayout
        CreateLeftHangingTextParagraph.java
        Utils.java
  - Plugins
    - Aspose_Pdf_Java_Maven_for_Eclipse
      - AsposePdfEclipsePlugin
        src
        com
        aspose
        pdf
        Activator.java
        MavenSettings.java
        maven
        AsposeMavenProjectSupport.java
        AsposeMavenProjectWizard.java
        AsposeMavenProjectWizardPage.java
        artifacts
        Metadata.java
        ObjectFactory.java
        examples
        AsposeExampleSupport.java
        AsposeExampleWizard.java
        AsposeExampleWizardPage.java
        utils
        AsposeConstants.java
        AsposeJavaAPI.java
        AsposeMavenProjectManager.java
        AsposePdfJavaAPI.java
        FormatExamples.java
        GitHelper.java
        MavenSettings.java
        org
        eclipse
        wb
        swt
        SWTResourceManager.java
    - Aspose_Pdf_Java_for_IntelliJ(Maven)
      - src
        com
        aspose
        examples
        AsposeExampleAction.java
        AsposeExampleCallback.java
        AsposeExampleDialog.java
        AsposeExamplePanel.java
        CustomMutableTreeNode.java
        maven
        apis
        artifacts
        Metadata.java
        ObjectFactory.java
        utils
        AsposeConstants.java
        AsposeJavaAPI.java
        AsposeMavenProjectManager.java
        AsposeMavenUtil.java
        AsposePdfJavaAPI.java
        FormatExamples.java
        GitHelper.java
        execution
        CallBackHandler.java
        ModalTaskImpl.java
        RunnableHelper.java
        wizards
        maven
        AsposeIntroWizardStep.java
        AsposeMavenModuleBuilder.java
        AsposeMavenModuleBuilderHelper.java
        AsposeMavenModuleWizardStep.java
        CreateMavenProjectCallback.java
        DownloadExamplesCallback.java
        MavenId.java
        icons
        AsposeIcons.java
    - Aspose_Pdf_Java_for_NetBeans(Maven)
      - src
        com
        aspose
        pdf
        maven
        AsposeMavenBasicPanelVisual.java
        AsposeMavenBasicWizardPanel.java
        AsposeMavenProjectWizardIterator.java
        MavenSettings.java
        artifacts
        Metadata.java
        ObjectFactory.java
        examples
        AsposeExamplePanel.java
        AsposeExampleWizardIterator.java
        AsposeExampleWizardPanel.java
        CustomMutableTreeNode.java
        utils
        AbstractTask.java
        AsposeConstants.java
        AsposeJavaAPI.java
        AsposeMavenProjectManager.java
        AsposePdfJavaAPI.java
        FormatExamples.java
        GitHelper.java
        TasksExecutor.java
    - Aspose_Pdf_for_Struts
      - src
        main
        java
        com
        books
        AsposeAPIHelper.java
        BookActions.java
        BookForm.java
        Books.java
        ShowBooks.java

package com.aspose.pdf.examples.AsposePdfExamples.Text;

import java.io.IOException;

import com.aspose.pdf.Document;
import com.aspose.pdf.TextAbsorber;
import com.aspose.pdf.TextExtractionOptions;
import com.aspose.pdf.TextFragment;
import com.aspose.pdf.TextFragmentAbsorber;
import com.aspose.pdf.TextFragmentCollection;

public class ExtractTextBasedOnColumns {

	public static void main(String[] args) throws IOException {
		extractTextBasedOnColumns();
		usingSetScaleFactorMethod();
	}

	public static void extractTextBasedOnColumns() throws IOException {
		String path = "PathToDir";
		// instantiate Document instance with path of input file as argument
		Document pdfDocument = new Document(path + "net_New-age NED's.pdf");
		// create TextFragment Absorber instance
		TextFragmentAbsorber tfa = new TextFragmentAbsorber();
		pdfDocument.getPages().accept(tfa);
		// create TextFragment Collection instance
		TextFragmentCollection tfc = tfa.getTextFragments();
		for (TextFragment tf : (Iterable<TextFragment>) tfc) {
			// need to reduce font size at least for 70%
			tf.getTextState().setFontSize(tf.getTextState().getFontSize() * 0.7f);
		}
		// temporary save the file
		pdfDocument.save("" + "TempOutput.pdf");
		pdfDocument = new Document("TempOutput.pdf");
		TextAbsorber textAbsorber = new TextAbsorber();
		pdfDocument.getPages().accept(textAbsorber);
		String extractedText = textAbsorber.getText();
		textAbsorber.visit(pdfDocument);
		// Create a writer and open the file
		java.io.FileWriter writer = new java.io.FileWriter(new java.io.File("Extracted_text.txt"));
		writer.write(extractedText);
		// Write a line of text to the file
		// Close the stream
		writer.close();
	}

	public static void usingSetScaleFactorMethod() {
		Document pdfDocument = new Document("inputFile.pdf");
		TextAbsorber textAbsorber = new TextAbsorber();
		textAbsorber.setExtractionOptions(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure));
		// Setting scale factor to 0.5 is enough to split columns in the majority of documents
		// Setting of zero allows to algorithm choose scale factor automatically
		textAbsorber.getExtractionOptions().setScaleFactor((double) 0.5);
		pdfDocument.getPages().accept(textAbsorber);
		String extractedText = textAbsorber.getText();
	}
}