TextExtractorSub.java example

Explorer

OCRaptor-master
- src
  - main
    - java
      - mj
        ocraptor
        Main.java
        MainController.java
        configuration
        Config.java
        Localization.java
        PropertiesChanger.java
        PropertiesManager.java
        properties
        ConfigBool.java
        ConfigInteger.java
        ConfigString.java
        console
        AnsiColor.java
        COF.java
        CommandLineInterpreter.java
        ExtendedAscii.java
        Platform.java
        database
        DBFileStatus.java
        DBManager.java
        FullTextLucene.java
        H2Database.java
        StandardAnalyzer.java
        dao
        DaoTools.java
        FileEntry.java
        FileEntryDao.java
        FullText.java
        FullTextDao.java
        ResultError.java
        error
        DBPathNotFoundException.java
        FilePermissionException.java
        LuceneIndexNotFoundException.java
        TableEmptyException.java
        TableNotFoundException.java
        search
        LuceneResult.java
        PartialEntry.java
        PartialEntryType.java
        StyledSnippet.java
        StyledSnippetType.java
        TextProcessing.java
        events
        Event.java
        EventAbstr.java
        EventConsole.java
        EventGUI.java
        EventManager.java
        ProgressType.java
        ProgressUpdate.java
        Queue.java
        QueueMonitor.java
        RingBuffer.java
        extraction
        JSoupTools.java
        XMLTools.java
        image_processing
        ImageTextExtractor.java
        ImageTextExtractorTess4j.java
        ImageTools.java
        TikaImageHelper.java
        language
        Language.java
        LanguageDetector.java
        tika
        parser
        chm
        ChmParser.java
        accessor
        ChmAccessor.java
        ChmDirectoryListingSet.java
        ChmItsfHeader.java
        ChmItspHeader.java
        ChmLzxcControlData.java
        ChmLzxcResetTable.java
        ChmPmgiHeader.java
        ChmPmglHeader.java
        DirectoryListingEntry.java
        assertion
        ChmAssert.java
        core
        ChmCommons.java
        ChmConstants.java
        ChmExtractor.java
        ChmWrapper.java
        exception
        ChmParsingException.java
        lzx
        ChmBlockInfo.java
        ChmLzxBlock.java
        ChmLzxState.java
        ChmSection.java
        djvu
        DjVuParser.java
        epub
        EpubContentParser.java
        EpubParser.java
        feed
        FeedParser.java
        html
        BoilerpipeContentHandler.java
        DefaultHtmlMapper.java
        HtmlEncodingDetector.java
        HtmlHandler.java
        HtmlMapper.java
        HtmlParser.java
        IdentityHtmlMapper.java
        XHTMLDowngradeHandler.java
        image
        ImageMetadataExtractor.java
        ImageParser.java
        MetadataFields.java
        PSDParser.java
        TiffParser.java
        xmp
        JempboxExtractor.java
        XMPPacketScanner.java
        iwork
        AutoPageNumberUtils.java
        IWorkPackageParser.java
        KeynoteContentHandler.java
        NumbersContentHandler.java
        PagesContentHandler.java
        jpeg
        JpegParser.java
        mail
        MailContentHandler.java
        RFC822Parser.java
        mbox
        MboxParser.java
        microsoft
        AbstractPOIFSExtractor.java
        Cell.java
        CellDecorator.java
        ExcelExtractor.java
        HSLFExtractor.java
        LinkedCell.java
        NumberCell.java
        OfficeParser.java
        OutlookExtractor.java
        POIFSContainerDetector.java
        SummaryExtractor.java
        TNEFParser.java
        TextCell.java
        WordExtractor.java
        XPSParser.java
        ooxml
        AbstractOOXMLExtractor.java
        MetadataExtractor.java
        OOXMLExtractor.java
        OOXMLExtractorFactory.java
        OOXMLParser.java
        POIXMLTextExtractorDecorator.java
        XSLFPowerPointExtractorDecorator.java
        XSSFExcelExtractorDecorator.java
        XWPFWordExtractorDecorator.java
        odf
        NSNormalizerContentHandler.java
        OpenDocumentContentParser.java
        OpenDocumentMetaParser.java
        OpenDocumentParser.java
        pdf
        PDF2XHTML.java
        PDFParser.java
        PDFParserConfig.java
        pkg
        CompressorParser.java
        CompressorParserOptions.java
        PackageParser.java
        ZipContainerDetector.java
        rtf
        GroupState.java
        ListDescriptor.java
        RTFParser.java
        TextExtractor.java
        txt
        AutoDetectReader.java
        CharsetDetector.java
        CharsetMatch.java
        CharsetRecog_2022.java
        CharsetRecog_UTF8.java
        CharsetRecog_Unicode.java
        CharsetRecog_mbcs.java
        CharsetRecog_sbcs.java
        CharsetRecognizer.java
        Icu4jEncodingDetector.java
        TXTParser.java
        UniversalEncodingDetector.java
        UniversalEncodingListener.java
        xml
        AbstractMetadataHandler.java
        AttributeDependantMetadataHandler.java
        AttributeMetadataHandler.java
        DcXMLParser.java
        ElementMetadataHandler.java
        FictionBookParser.java
        MetadataHandler.java
        XMLParser.java
        xoj
        XojParser.java
        format
        ColourParser.java
        Loader.java
        Page.java
        PageGenerator.java
        PagePoint.java
        Stroke.java
        file_handler
        FileTypeIdentifier.java
        PausableExecutor.java
        TextExtractor.java
        TextExtractorSub.java
        TextExtractorThread.java
        TextExtractorTools.java
        events
        FileHandler.java
        executer
        CommandExEventHandler.java
        CommandExecutor.java
        handler_impl
        SimpleOutput.java
        SuppressOutput.java
        filter
        FileType.java
        generator
        SimpleListGenerator.java
        structures
        FileList.java
        SequentialDirectoryWalker.java
        SimpleFileList.java
        utils
        FileTools.java
        javafx
        DoughnutChart.java
        FXMLFile.java
        GUIController.java
        GUITemplate.java
        Icon.java
        Theme.java
        controllers
        AddDatabase.java
        Confirmation.java
        EditDatabase.java
        HelpBrowser.java
        LoadingScreen.java
        MessageDialog.java
        SearchDialog.java
        SearchResult.java
        SelectDatabase.java
        SettingsManager.java
        rmi_client
        RMIClient.java
        RMIClientController.java
        RMIClientImpl.java
        rmi_server
        RMIServer.java
        RMIServerImpl.java
        swing
        SplashScreen.java
        tools
        AsciiTools.java
        DataStructureTools.java
        SoftReferenceSer.java
        St.java
        SystemTools.java
        TicToc.java
        Tp.java
        WeakReferenceSer.java
  - test
    - java
      - mj
        ocraptor
        ParserTest.java

package mj.ocraptor.file_handler;

import static mj.ocraptor.file_handler.filter.FileType.APPLE_KEY;
import static mj.ocraptor.file_handler.filter.FileType.APPLE_NUMBERS;
import static mj.ocraptor.file_handler.filter.FileType.APPLE_PAGES;
import static mj.ocraptor.file_handler.filter.FileType.EPUB;
import static mj.ocraptor.file_handler.filter.FileType.LO_CALC;
import static mj.ocraptor.file_handler.filter.FileType.LO_IMPRESS;
import static mj.ocraptor.file_handler.filter.FileType.LO_WRITER;
import static mj.ocraptor.file_handler.filter.FileType.PS;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.StringWriter;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import javax.xml.transform.OutputKeys;
import javax.xml.transform.sax.SAXTransformerFactory;
import javax.xml.transform.sax.TransformerHandler;
import javax.xml.transform.stream.StreamResult;

import mj.ocraptor.configuration.Config;
import mj.ocraptor.configuration.properties.ConfigBool;
import mj.ocraptor.configuration.properties.ConfigInteger;
import mj.ocraptor.database.dao.FileEntry;
import mj.ocraptor.database.dao.ResultError;
import mj.ocraptor.database.search.TextProcessing;
import mj.ocraptor.extraction.tika.parser.epub.EpubParser;
import mj.ocraptor.extraction.tika.parser.html.HtmlParser;
import mj.ocraptor.extraction.tika.parser.image.ImageParser;
import mj.ocraptor.extraction.tika.parser.iwork.IWorkPackageParser;
import mj.ocraptor.extraction.tika.parser.microsoft.OfficeParser;
import mj.ocraptor.extraction.tika.parser.microsoft.XPSParser;
import mj.ocraptor.extraction.tika.parser.microsoft.ooxml.OOXMLParser;
import mj.ocraptor.extraction.tika.parser.odf.OpenDocumentParser;
import mj.ocraptor.extraction.tika.parser.pdf.PDFParser;
import mj.ocraptor.extraction.tika.parser.rtf.RTFParser;
import mj.ocraptor.extraction.tika.parser.txt.TXTParser;
import mj.ocraptor.extraction.tika.parser.xml.XMLParser;
import mj.ocraptor.extraction.tika.parser.xoj.XojParser;
import mj.ocraptor.file_handler.filter.FileType;
import mj.ocraptor.rmi_client.RMIClientImpl;
import mj.ocraptor.rmi_server.RMIServerImpl;
import mj.ocraptor.tools.St;

import org.apache.tika.config.TikaConfig;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MediaType;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

public class TextExtractorSub {
  private FileType fileType;
  private Config cfg;
  private TextExtractorTools tools;

  /**
   *
   */
  public TextExtractorSub() {
    this.cfg = Config.inst();
    this.tools = new TextExtractorTools();
  }

  /**
   *
   *
   * @param file
   * @return
   * @throws Exception
   */
  public FileEntry extractTextTika(final File file) throws Exception {
    this.fileType = FileType.get(file);

    InputStream inputStream = null;
    StringWriter stringWriter = null;
    FileEntry result = null;
    File tempFile = null;

    try {

      // ------------------------------------------------ //
      // -- do not index the given database-folder
      // ------------------------------------------------ //

      final TikaConfig config = new TikaConfig(Config.inst().getTikaMimeFile());
      final AutoDetectParser autoDetectParser = new AutoDetectParser(config);
      final Map<MediaType, Parser> availableParsers = tools.getAvailableParsers(file);

      // ------------------------------------------------ //
      // --
      // ------------------------------------------------ //
      final List<MediaType> supportedFileTypes = new ArrayList<MediaType>(availableParsers.keySet());

      if (!supportedFileTypes.contains(fileType.getMediaType())) {
        result = new FileEntry(file);
        // not supported filetype --> don't make a db entry
        result.setError(ResultError.NOT_SUPPORTED);
        return result;
      }

      // ------------------------------------------------ //
      // --
      // ------------------------------------------------ //

      autoDetectParser.setParsers(availableParsers);

      Metadata metadata = new Metadata();
      this.addStandardMetadata(metadata, file);

      if (FileType.is(file, FileType.PS)) {
        tempFile = PDFParser.convertPostScriptToPDF(file);
        inputStream = new FileInputStream(tempFile);
      } else {
        inputStream = new FileInputStream(file);
      }
      stringWriter = new StringWriter();

      // ------------------------------------------------ //
      // parse document and convert content to xhtml
      SAXTransformerFactory factory = (SAXTransformerFactory) SAXTransformerFactory.newInstance();
      TransformerHandler handler = factory.newTransformerHandler();
      handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "xml");
      handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "no");
      handler.setResult(new StreamResult(stringWriter));
      BodyContentHandler bch = new BodyContentHandler(handler);
      try {
        autoDetectParser.parse(inputStream, bch, metadata);
      } catch (Exception e) {
        throw e;
      }

      // ------------------------------------------------ //

      String xhtml = stringWriter.toString();

      // RMIClientImpl.instance().sendDebugErrorToServer(xhtml, null, true);

      // TODO:
      if (xhtml != null && !xhtml.trim().isEmpty()) {
        metadata = normalizeMetadata(metadata);

        String xmlns = " xmlns=\"http://www.w3.org/1999/xhtml\"";
        xhtml = xhtml.replace(xmlns, "");
        xhtml = xhtml.replaceFirst("\\?>", "\\?><div" + xmlns + ">");
        xhtml = xhtml.replaceAll("\\s+", " ");
        StringBuilder builder = new StringBuilder();
        builder.append(xhtml);

        // ------------------------------------------------ //
        if (this.cfg.getProp(ConfigBool.INCLUDE_METADATA)) {
          builder.append("<div class=\"metadata\">");
          for (String md : metadata.names()) {
            if (md != null && !md.trim().isEmpty()) {
              String value = metadata.get(md);
              if (value != null && !value.trim().isEmpty()) {
                builder.append("<p> " + md + "=" + value + " </p>");
              }
            }
          }
          builder.append("</div>");
        }
        // ------------------------------------------------ //

        builder.append("</div>");
        xhtml = builder.toString();
        xhtml = TextProcessing.preProcess(xhtml);

        result = new FileEntry(file);
        result.setFullText(xhtml);
        // System.out.println(xhtml);
      }
    } catch (Exception e) {
      throw e;
    } finally {
      try {
        if (inputStream != null)
          inputStream.close();
        if (stringWriter != null)
          stringWriter.close();
        if (tempFile != null && tempFile.exists())
          tempFile.delete();
      } catch (IOException e) {
      }
    }
    return result;
  }

  private Boolean validSize(Integer maxSize, File currentFile) {
    if (maxSize != null) {
      try {
        long fileSizeInKB = currentFile.length() / 1024;
        if (fileSizeInKB < maxSize)
          return true;
        else
          return false;
      } catch (NumberFormatException e) {
        e.printStackTrace();
      }
    }
    return null;
  }

  private void addStandardMetadata(Metadata metadata, File file) {
    if (metadata != null && file != null) {
      if (metadata.get(Metadata.CONTENT_TYPE) == null) {
        metadata.set(Metadata.CONTENT_TYPE, fileType.getMimeString());
      }

      // metadata.remove("X-Parsed-By");
      metadata.set(Config.META_FILE_NAME, file.getName());
      metadata.set(Config.META_FILE_PATH, file.getParent());

      // metadata.set(Metadata.CONTENT_ENCODING, "utf-8");
      // metadata.add(Metadata.CONTENT_ENCODING, "utf-8");
    }
  }

  private Metadata normalizeMetadata(Metadata metadata) {
    String[] ignoredMetadata = new String[] { "x-parsed-by" };
    Metadata filteredMetadata = new Metadata();
    for (String key : metadata.names()) {
      if (key != null && !key.trim().isEmpty()) {
        key = St.normalizeDocumentText(key);
        key = St.stripHtmlTags(key);
        String value = metadata.get(key);

        boolean skipMetadata = false;
        for (String ignoreMd : ignoredMetadata) {
          if (key.toLowerCase().equals(ignoreMd)) {
            skipMetadata = true;
            break;
          }
        }

        if (value != null && !value.trim().isEmpty() && !skipMetadata) {
          value = St.normalizeDocumentText(value);
          value = St.stripHtmlTags(value);
          value = value.replaceAll("\\s", " ");
          filteredMetadata.add(key, value);
        }
      }
    }
    return filteredMetadata;
  }
}