TesseractProcess.java example

Explorer

ocr-tools-master
- controller
  - src
    - main
      - java
        de
        unigoettingen
        sub
        ocr
        controller
        FactoryProvider.java
        OcrEngineStarter.java
        OcrParameters.java
        Validator.java
        ValidatorGerman.java
    - test
      - java
        de
        unigoettingen
        sub
        ocr
        controller
        OcrEngineStarterTest.java
        ValidatorTest.java
- model-abbyy-server
  - src
    - main
      - java
        de
        uni_goettingen
        sub
        commons
        ocr
        abbyy
        server
        AbbyyEngine.java
        AbbyyFactory.java
        AbbyyImage.java
        AbbyyOutput.java
        AbbyyProcess.java
        AbbyyTicket.java
        HotfolderManager.java
        ItemComparator.java
        LockFileHandler.java
        OcrExecutor.java
        ProcessMergingObserver.java
        ProcessSplitter.java
        TimeoutException.java
        XmlParser.java
        hotfolder
        Hotfolder.java
        HotfolderProvider.java
        JackrabbitHotfolder.java
        ServerHotfolder.java
        VfsHotfolder.java
        multiuser
        AbbyyMultiuserEngine.java
        AbbyyMultiuserFactory.java
        HazelcastExecutor.java
        HazelcastLockFileHandler.java
    - test
      - java
        de
        uni_goettingen
        sub
        commons
        ocr
        abbyy
        server
        AbbyyEngineTest.java
        AbbyyFactoryTest.java
        AbbyyProcessTest.java
        AbbyyTicketTest.java
        HotfolderManagerTest.java
        LockFileHandlerTest.java
        OcrExecutorTest.java
        ProcessMergingObserverTest.java
        ProcessSplitterTest.java
        XmlParserTest.java
        hotfolder
        HotfolderMockProvider.java
        JackrabbitHotfolderTest.java
        multiuser
        HazelcastExecutorTest.java
        HazelcastLockFileHandlerTest.java
- model-api
  - src
    - main
      - java
        de
        uni_goettingen
        sub
        commons
        ocr
        api
        AbstractEngine.java
        AbstractImage.java
        AbstractOutput.java
        AbstractProcess.java
        OcrEngine.java
        OcrFactory.java
        OcrFactoryWithProperties.java
        OcrFormat.java
        OcrImage.java
        OcrOutput.java
        OcrPriority.java
        OcrProcess.java
        OcrQuality.java
        OcrTextType.java
- model-ocrsdk
  - src
    - main
      - java
        de
        uni_goettingen
        sub
        commons
        ocr
        abbyy
        ocrsdk
        Http.java
        OcrsdkClient.java
        OcrsdkEngine.java
        OcrsdkFactory.java
        OcrsdkImage.java
        OcrsdkOutput.java
        OcrsdkProcess.java
    - test
      - java
        de
        uni_goettingen
        sub
        commons
        ocr
        abbyy
        ocrsdk
        HttpTest.java
        OcrsdkClientTest.java
        OcrsdkImageTest.java
        OcrsdkOutputTest.java
        OcrsdkProcessTest.java
- model-tesseract
  - src
    - main
      - java
        de
        uni_goettingen
        sub
        commons
        ocr
        tesseract
        Tesseract.java
        TesseractEngine.java
        TesseractFactory.java
        TesseractProcess.java
    - test
      - java
        de
        uni_goettingen
        sub
        commons
        ocr
        tesseract
        TesseractProcessTest.java
- ocrutil
  - src
    - main
      - java
        de
        unigoettingen
        sub
        commons
        ocr
        util
        BeanProvider.java
        FileAccess.java
        Mailer.java
        Pause.java
        abbyy
        ToAbbyyMapper.java
        merge
        AbbyyXmlMerger.java
        HocrMerger.java
        Merger.java
        MergerProvider.java
        PdfMerger.java
        ResultXmlMerger.java
        TextMerger.java
    - test
      - java
        de
        unigoettingen
        sub
        commons
        ocr
        util
        FileAccessMockProvider.java
        MailerMockProvider.java
        MailerTest.java
        merge
        AbbyyXmlMergerTest.java
        HocrMergerTest.java
        PdfMergerTest.java
        ResultXmlMergerTest.java
        TextMergerTest.java
- system-tests
  - src
    - test
      - java
        de
        unigoettingen
        sub
        ocr
        systemtests
        CliSystemTest.java
- view-cli
  - src
    - main
      - java
        de
        unigoettingen
        sub
        commons
        ocrComponents
        cli
        Main.java
    - test
      - java
        de
        unigoettingen
        sub
        commons
        ocrComponents
        cli
        CliIntegrationTest.java
        MainTest.java
- view-goobi-servlet
  - src
    - main
      - java
        de
        unigoettingen
        sub
        commons
        ocr
        servlet
        SimpleOcrServlet.java
    - test
      - java
        de
        unigoettingen
        sub
        commons
        ocr
        servlet
        ServletTest.java
        SimpleOcrServletChild.java
- view-web-frontend
  - src
    - main
      - java
        de
        unigoettingen
        sub
        commons
        ocr
        web
        LogSelector.java
        OcrServlet.java
        OcrStarter.java
        OptionsReader.java
    - test
      - java
        de
        unigoettingen
        sub
        commons
        ocr
        web
        OcrStarterTest.java
        TestSuiteForJspsAndServlets.java
        WebIntegrationTest.java
        testutil
        IndexJspTestPart.java
        IndexJspTestServlet.java
        OcrServletChild.java
        OcrServletTestPart.java
- view-webservice
  - src
    - main
      - java
        de
        unigoettingen
        sub
        commons
        ocrComponents
        webservice
        ByUrlRequestType.java
        ByUrlResponseType.java
        OcrService.java
        OcrServiceImpl.java
        RecognitionLanguage.java
        RecognitionLanguages.java
    - test
      - java
        de
        unigoettingen
        sub
        commons
        ocrComponents
        webservice
        WebServiceTest.java

package de.uni_goettingen.sub.commons.ocr.tesseract;

import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Locale;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import de.uni_goettingen.sub.commons.ocr.api.AbstractImage;
import de.uni_goettingen.sub.commons.ocr.api.AbstractOutput;
import de.uni_goettingen.sub.commons.ocr.api.AbstractProcess;
import de.uni_goettingen.sub.commons.ocr.api.OcrFormat;
import de.uni_goettingen.sub.commons.ocr.api.OcrImage;
import de.uni_goettingen.sub.commons.ocr.api.OcrOutput;
import de.uni_goettingen.sub.commons.ocr.api.OcrProcess;
import de.uni_goettingen.sub.commons.ocr.api.OcrTextType;
import de.unigoettingen.sub.commons.ocr.util.BeanProvider;
import de.unigoettingen.sub.commons.ocr.util.FileAccess;
import de.unigoettingen.sub.commons.ocr.util.merge.Merger;
import de.unigoettingen.sub.commons.ocr.util.merge.MergerProvider;

/**
 * Represents an OCR job with several images.
 */
public class TesseractProcess extends AbstractProcess implements
		OcrProcess {

	private static final long serialVersionUID = 4819408808755150623L;

	/** The logger. */
	protected static Logger logger = LoggerFactory
			.getLogger(TesseractProcess.class);

	/**
	 * The temp files which are generated for each run of tesseract. Are merged
	 * into one file at the end.
	 */
	private List<File> tempFiles = new ArrayList<File>();

	/**
	 * Languages of the images, mapped to strings which tesseract understands.
	 * Tesseract can only use one for each image.
	 */
	private Map<String, String> languages = new HashMap<String, String>();

	/**
	 * The extensions that are generated by tesseract. txt for text results,
	 * html for hocr results
	 */
	private Map<OcrFormat, String> extensions = new HashMap<OcrFormat, String>();

	/** Mappings of the interface formats to tesseract-specific ones */
	private Map<OcrFormat, String> formats = new HashMap<OcrFormat, String>();

	private MergerProvider mergerProvider = new MergerProvider();
	private BeanProvider beanProvider = new BeanProvider();
	private FileAccess fileAccess;
	
	{
		languages.put("de", "deu");
		languages.put("en", "eng");
		
		extensions.put(OcrFormat.TXT, "txt");
		extensions.put(OcrFormat.HOCR, "html");

		formats.put(OcrFormat.TXT, "");
		formats.put(OcrFormat.HOCR, "hocr");
	}

	// for unit tests
	void setMergerProvider(MergerProvider newProvider) {
		mergerProvider = newProvider;
	}
	void setBeanProvider(BeanProvider newBeanProvider) {
		beanProvider = newBeanProvider;
	}
	Tesseract createTesseract(File image, File output) {
		return new Tesseract(image, output);
	}

	@Override
	public void addImage(URI localUri) {
		if (!localUri.getScheme().equals("file")) {
			throw new IllegalArgumentException("Only local files can be processed. Path was: " + localUri);
		}
		OcrImage image = new AbstractImage() {};
		image.setLocalUri(localUri);
		ocrImages.add(image);
	}

	@Override
	public void addOutput(OcrFormat format) {
		if (!formats.keySet().contains(format)) {
			throw new IllegalArgumentException("Format is not supported by tesseract: " + format);
		}
		OcrOutput output = new AbstractOutput() {};
		output.setLocalUri(constructLocalUri(format));
		output.setFormat(format);
		ocrOutputs.add(output);
	}

	/**
	 * Manages the input images and output files, then starts tesseract once for
	 * each image.
	 */
	public void start() {
		
		if (ocrOutputs.isEmpty() || ocrImages.isEmpty()) {
			logger.warn("There are no images or no defined outputs in the process.");
			return;
		}
		
		fileAccess = beanProvider.getFileAccess();
		List<InputStream> inputsToMerge = new ArrayList<InputStream>();
				
		for (OcrOutput output : ocrOutputs) {
			// eg TXT
			OcrFormat format = output.getFormat();

			try {

				// to have a different file name for each OCRed text
				int i = 1;

				for (OcrImage image : ocrImages) {
					File imageFile = new File(image.getLocalUri());
					File tempOutput = new File(output.getLocalUri().getPath() + i);
					i++;

					executeTesseract(imageFile, format, tempOutput);

					// eg html for HOCR files, is automatically added by
					// tesseract
					String actualExtension = extensions.get(format);

					String actualOutput = tempOutput.getAbsolutePath() + "."
							+ actualExtension;
					tempFiles.add(new File(actualOutput));
					InputStream is = fileAccess.inputStreamForFile(new File(actualOutput));
					inputsToMerge.add(is);

				}

				File localOutput = new File(output.getLocalUri().getPath());

				OutputStream mergedOutput = fileAccess.outputStreamForFile(localOutput);
				
				Merger merger = mergerProvider.createMerger(format);
				merger.mergeBuffered(inputsToMerge, mergedOutput);

				for (File file : tempFiles) {
					logger.info("Deleting file " + file.getAbsolutePath());
					fileAccess.deleteFile(file);
				}
			} catch (IOException e) {
				logger.error("Could not finish the process for format '" + format + "'.", e);
			}
		}
	}

	private void executeTesseract(File image, OcrFormat format, File output) throws IOException {

		File parentDir = new File(output.getParent());
		
		if(!fileAccess.fileExists(parentDir)) {
			fileAccess.makeDirs(parentDir);
		}
		
		Tesseract tesseract = createTesseract(image, output);
		tesseract.setFormat(formats.get(format));

		if (langs.isEmpty()) {
			logger.warn("No language defined! Setting to German as default.");
			langs.add(Locale.GERMAN);
		}
		// tesseract only takes one language
		Locale locale = new ArrayList<Locale>(langs).get(0);
		tesseract.setLanguage(languages.get(locale.getLanguage()));

		if (getTextType() == OcrTextType.GOTHIC) {
			tesseract.setGothic(true);
		}

		tesseract.execute();

	}
}