JPedalPageImageExtractor.java example

Explorer

lapdftext-master
- src
  - main
    - autogen
      - edu
        isi
        bmkeg
        pdf
        DocumentInformation.java
        DocumentInformation_Type.java
    - java
      - edu
        isi
        bmkeg
        lapdf
        bin
        BlockStatistics.java
        Blockify.java
        BlockifyClassify.java
        CommandLineTool.java
        CustomBatchProcessingTool.java
        ImagifyBlocks.java
        ImagifySections.java
        PDFExtractionConstants.java
        ReadSectionText.java
        TextPanel.java
        WatchDirectory.java
        classification
        Classifier.java
        ruleBased
        RuleBasedChunkClassifier.java
        controller
        LapdfEngine.java
        LapdfMode.java
        extraction
        Extractor.java
        JPedalExtractor.java
        JPedalPageImageExtractor.java
        exceptions
        AccessException.java
        ClassificationException.java
        EmptyPDFException.java
        EncryptionException.java
        InvalidPopularSpaceValueException.java
        features
        ChunkFeatures.java
        HorizontalSplitFeature.java
        WordFeatures.java
        model
        Block.java
        ChunkBlock.java
        LapdfDirection.java
        LapdfDocument.java
        PageBlock.java
        RTree
        RTChunkBlock.java
        RTDummyProcedure.java
        RTModelFactory.java
        RTPageBlock.java
        RTProcedure.java
        RTSpatialEntity.java
        RTSpatialRepresentation.java
        RTWordBlock.java
        WordBlock.java
        factory
        AbstractModelFactory.java
        ordering
        SpatialOrdering.java
        spatial
        SpatialEntity.java
        SpatialRepresentation.java
        parser
        Parser.java
        RuleBasedParser.java
        text
        SectionBasedTextExtractor.java
        SectionsTextWriter.java
        SpatialLayoutFeaturesReportGenerator.java
        SpatiallyOrderedChunkTextWriter.java
        SpatiallyOrderedChunkTypeFilteredTextWriter.java
        TextWriter.java
        uima
        ae
        ParserRuleBasedClassfierAE.java
        cpe
        CommandLineFitPipeline.java
        cr
        DirectoryCollectionReader.java
        utils
        JPedalPDFRenderer.java
        PageImageOutlineRenderer.java
        PdfDirWatcher.java
        xml
        OpenAccessXMLWriter.java
        SpatialXMLWriter.java
        XMLWriter.java
        utils
        FileUtils.java
        FrequencyCounter.java
        ISI_UIMA_PDFUtils.java
        IntegerFrequencyCounter.java
        PipelineLauncher.java
        ReflectionUtils.java
        StringCleaner.java
        StringCleanerException.java
  - test
    - java
      - edu
        isi
        bmkeg
        CommandLineToolTest.java
        ladpdf
        bin
        BlockifyClassifyTest.java
        BlockifyTest.java
        BlocksStatisticsTest.java
        ImagifyBlocksTest.java
        ImagifySectionsTest.java
        ReadSectionTextTest.java
        dirWatchers
        WatchDirectory_BLOCKIFY_CLASSIFY_Test.java
        WatchDirectory_BLOCKIFY_Test.java
        WatchDirectory_IMAGIFY_BLOCKS_Test.java
        WatchDirectory_IMAGIFY_SECTIONS_Test.java
        WatchDirectory_READ_SECTION_TEXT_Test.java

package edu.isi.bmkeg.lapdf.extraction;

import java.awt.image.BufferedImage;
import java.util.Iterator;
import java.util.List;

import org.jpedal.PdfDecoder;
import org.jpedal.exception.PdfException;
import org.jpedal.fonts.PdfFont;
import org.jpedal.grouping.PdfGroupingAlgorithms;

import edu.isi.bmkeg.lapdf.extraction.exceptions.AccessException;
import edu.isi.bmkeg.lapdf.extraction.exceptions.EncryptionException;

public class JPedalPageImageExtractor implements Iterator<BufferedImage>
{
	private PdfDecoder decoder = null;
	int currentPage = 1;
	int pageCount;
	private List<BufferedImage> pageImages;

	public JPedalPageImageExtractor()
	{
		this.decoder = new PdfDecoder(true);
		//PdfDecoder.s
		//PdfDecoder.setTextPrint(PdfDecoder.);
		//decoder.setExtractionMode(PdfDecoder.TEXT); // extract just text
		decoder.init(true);
		PdfGroupingAlgorithms.useUnrotatedCoords = true;
		// if you do not require XML content, pure text extraction is much
		// faster.
		decoder.useXMLExtraction();
	}

	public void init(String fileName) throws PdfException, AccessException,
	EncryptionException {
		if (decoder.isOpen()) {
			decoder.flushObjectValues(true);
			decoder.closePdfFile();

		}
		decoder.openPdfFile(fileName);
		currentPage = 1;
		pageCount = decoder.getPageCount();
		if (!decoder.isExtractionAllowed()) {
			throw new AccessException(fileName);
		} else if (decoder.isEncrypted()) {
			throw new EncryptionException(fileName);
		}

	}

    public void close(){
    	if (decoder.isOpen()) {
			decoder.flushObjectValues(true);
			decoder.closePdfFile();
		}
    }

	@Override
	public boolean hasNext()
	{
		if(currentPage<=pageCount)
			return true;
		return false;
	}

	@Override
	public BufferedImage next()
	{
		try
		{
			BufferedImage img = decoder.getPageAsImage(currentPage);
			currentPage++;
			return img;
		} catch (PdfException e)
		{
			e.printStackTrace();
		}
		return null;
	}

	@Override
	public void remove()
	{
	

	}

}