HtmlParser.java example

Explorer

OCRaptor-master
- src
  - main
    - java
      - mj
        ocraptor
        Main.java
        MainController.java
        configuration
        Config.java
        Localization.java
        PropertiesChanger.java
        PropertiesManager.java
        properties
        ConfigBool.java
        ConfigInteger.java
        ConfigString.java
        console
        AnsiColor.java
        COF.java
        CommandLineInterpreter.java
        ExtendedAscii.java
        Platform.java
        database
        DBFileStatus.java
        DBManager.java
        FullTextLucene.java
        H2Database.java
        StandardAnalyzer.java
        dao
        DaoTools.java
        FileEntry.java
        FileEntryDao.java
        FullText.java
        FullTextDao.java
        ResultError.java
        error
        DBPathNotFoundException.java
        FilePermissionException.java
        LuceneIndexNotFoundException.java
        TableEmptyException.java
        TableNotFoundException.java
        search
        LuceneResult.java
        PartialEntry.java
        PartialEntryType.java
        StyledSnippet.java
        StyledSnippetType.java
        TextProcessing.java
        events
        Event.java
        EventAbstr.java
        EventConsole.java
        EventGUI.java
        EventManager.java
        ProgressType.java
        ProgressUpdate.java
        Queue.java
        QueueMonitor.java
        RingBuffer.java
        extraction
        JSoupTools.java
        XMLTools.java
        image_processing
        ImageTextExtractor.java
        ImageTextExtractorTess4j.java
        ImageTools.java
        TikaImageHelper.java
        language
        Language.java
        LanguageDetector.java
        tika
        parser
        chm
        ChmParser.java
        accessor
        ChmAccessor.java
        ChmDirectoryListingSet.java
        ChmItsfHeader.java
        ChmItspHeader.java
        ChmLzxcControlData.java
        ChmLzxcResetTable.java
        ChmPmgiHeader.java
        ChmPmglHeader.java
        DirectoryListingEntry.java
        assertion
        ChmAssert.java
        core
        ChmCommons.java
        ChmConstants.java
        ChmExtractor.java
        ChmWrapper.java
        exception
        ChmParsingException.java
        lzx
        ChmBlockInfo.java
        ChmLzxBlock.java
        ChmLzxState.java
        ChmSection.java
        djvu
        DjVuParser.java
        epub
        EpubContentParser.java
        EpubParser.java
        feed
        FeedParser.java
        html
        BoilerpipeContentHandler.java
        DefaultHtmlMapper.java
        HtmlEncodingDetector.java
        HtmlHandler.java
        HtmlMapper.java
        HtmlParser.java
        IdentityHtmlMapper.java
        XHTMLDowngradeHandler.java
        image
        ImageMetadataExtractor.java
        ImageParser.java
        MetadataFields.java
        PSDParser.java
        TiffParser.java
        xmp
        JempboxExtractor.java
        XMPPacketScanner.java
        iwork
        AutoPageNumberUtils.java
        IWorkPackageParser.java
        KeynoteContentHandler.java
        NumbersContentHandler.java
        PagesContentHandler.java
        jpeg
        JpegParser.java
        mail
        MailContentHandler.java
        RFC822Parser.java
        mbox
        MboxParser.java
        microsoft
        AbstractPOIFSExtractor.java
        Cell.java
        CellDecorator.java
        ExcelExtractor.java
        HSLFExtractor.java
        LinkedCell.java
        NumberCell.java
        OfficeParser.java
        OutlookExtractor.java
        POIFSContainerDetector.java
        SummaryExtractor.java
        TNEFParser.java
        TextCell.java
        WordExtractor.java
        XPSParser.java
        ooxml
        AbstractOOXMLExtractor.java
        MetadataExtractor.java
        OOXMLExtractor.java
        OOXMLExtractorFactory.java
        OOXMLParser.java
        POIXMLTextExtractorDecorator.java
        XSLFPowerPointExtractorDecorator.java
        XSSFExcelExtractorDecorator.java
        XWPFWordExtractorDecorator.java
        odf
        NSNormalizerContentHandler.java
        OpenDocumentContentParser.java
        OpenDocumentMetaParser.java
        OpenDocumentParser.java
        pdf
        PDF2XHTML.java
        PDFParser.java
        PDFParserConfig.java
        pkg
        CompressorParser.java
        CompressorParserOptions.java
        PackageParser.java
        ZipContainerDetector.java
        rtf
        GroupState.java
        ListDescriptor.java
        RTFParser.java
        TextExtractor.java
        txt
        AutoDetectReader.java
        CharsetDetector.java
        CharsetMatch.java
        CharsetRecog_2022.java
        CharsetRecog_UTF8.java
        CharsetRecog_Unicode.java
        CharsetRecog_mbcs.java
        CharsetRecog_sbcs.java
        CharsetRecognizer.java
        Icu4jEncodingDetector.java
        TXTParser.java
        UniversalEncodingDetector.java
        UniversalEncodingListener.java
        xml
        AbstractMetadataHandler.java
        AttributeDependantMetadataHandler.java
        AttributeMetadataHandler.java
        DcXMLParser.java
        ElementMetadataHandler.java
        FictionBookParser.java
        MetadataHandler.java
        XMLParser.java
        xoj
        XojParser.java
        format
        ColourParser.java
        Loader.java
        Page.java
        PageGenerator.java
        PagePoint.java
        Stroke.java
        file_handler
        FileTypeIdentifier.java
        PausableExecutor.java
        TextExtractor.java
        TextExtractorSub.java
        TextExtractorThread.java
        TextExtractorTools.java
        events
        FileHandler.java
        executer
        CommandExEventHandler.java
        CommandExecutor.java
        handler_impl
        SimpleOutput.java
        SuppressOutput.java
        filter
        FileType.java
        generator
        SimpleListGenerator.java
        structures
        FileList.java
        SequentialDirectoryWalker.java
        SimpleFileList.java
        utils
        FileTools.java
        javafx
        DoughnutChart.java
        FXMLFile.java
        GUIController.java
        GUITemplate.java
        Icon.java
        Theme.java
        controllers
        AddDatabase.java
        Confirmation.java
        EditDatabase.java
        HelpBrowser.java
        LoadingScreen.java
        MessageDialog.java
        SearchDialog.java
        SearchResult.java
        SelectDatabase.java
        SettingsManager.java
        rmi_client
        RMIClient.java
        RMIClientController.java
        RMIClientImpl.java
        rmi_server
        RMIServer.java
        RMIServerImpl.java
        swing
        SplashScreen.java
        tools
        AsciiTools.java
        DataStructureTools.java
        SoftReferenceSer.java
        St.java
        SystemTools.java
        TicToc.java
        Tp.java
        WeakReferenceSer.java
  - test
    - java
      - mj
        ocraptor
        ParserTest.java

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package mj.ocraptor.extraction.tika.parser.html;

import java.io.IOException;
import java.io.InputStream;
import java.nio.charset.Charset;
import java.util.Arrays;
import java.util.Collections;
import java.util.HashSet;
import java.util.Set;

import mj.ocraptor.extraction.tika.parser.txt.AutoDetectReader;

import org.apache.tika.config.ServiceLoader;
import org.apache.tika.exception.TikaException;
import org.apache.tika.io.CloseShieldInputStream;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MediaType;
import org.apache.tika.parser.AbstractParser;
import org.apache.tika.parser.ParseContext;
import org.ccil.cowan.tagsoup.HTMLSchema;
import org.ccil.cowan.tagsoup.Schema;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;

/**
 * HTML parser. Uses TagSoup to turn the input document to HTML SAX events, and
 * post-processes the events to produce XHTML and metadata expected by Tika
 * clients.
 */
public class HtmlParser extends AbstractParser {

  /** Serial version UID */
  private static final long serialVersionUID = 7895315240498733128L;

  private static final Set<MediaType> SUPPORTED_TYPES = Collections
      .unmodifiableSet(new HashSet<MediaType>(Arrays.asList(
          MediaType.text("html"), MediaType.application("xhtml+xml"),
          MediaType.application("vnd.wap.xhtml+xml"),
          MediaType.application("x-asp"))));

  private static final ServiceLoader LOADER = new ServiceLoader(
      HtmlParser.class.getClassLoader());

  /**
   * HTML schema singleton used to amortise the heavy instantiation time.
   */
  private static final Schema HTML_SCHEMA = new HTMLSchema();

  public Set<MediaType> getSupportedTypes(ParseContext context) {
    return SUPPORTED_TYPES;
  }

  public void parse(InputStream stream, ContentHandler handler,
      Metadata metadata, ParseContext context) throws IOException,
      SAXException, TikaException {
    // Automatically detect the character encoding
    AutoDetectReader reader = new AutoDetectReader(new CloseShieldInputStream(
        stream), metadata, context.get(ServiceLoader.class, LOADER));
    try {
      Charset charset = reader.getCharset();
      // charset = Charset.forName("utf-8");
      String previous = metadata.get(Metadata.CONTENT_TYPE);
      if (previous == null || previous.startsWith("text/html")) {
        MediaType type = new MediaType(MediaType.TEXT_HTML, charset);
        metadata.set(Metadata.CONTENT_TYPE, type.toString());
      }
      // deprecated, see TIKA-431
      metadata.set(Metadata.CONTENT_ENCODING, charset.name());

      // Get the HTML mapper from the parse context
      HtmlMapper mapper = context.get(HtmlMapper.class, new HtmlParserMapper());

      // Parse the HTML document
      org.ccil.cowan.tagsoup.Parser parser = new org.ccil.cowan.tagsoup.Parser();

      // Use schema from context or default
      Schema schema = context.get(Schema.class, HTML_SCHEMA);

      // TIKA-528: Reuse share schema to avoid heavy instantiation
      parser.setProperty(org.ccil.cowan.tagsoup.Parser.schemaProperty, schema);
      // TIKA-599: Shared schema is thread-safe only if bogons are ignored
      parser
          .setFeature(org.ccil.cowan.tagsoup.Parser.ignoreBogonsFeature, true);

      parser.setContentHandler(new XHTMLDowngradeHandler(new HtmlHandler(
          mapper, handler, metadata)));

      parser.parse(reader.asInputSource());
    } finally {
      reader.close();
    }
  }

  /**
   * Maps "safe" HTML element names to semantic XHTML equivalents. If the given
   * element is unknown or deemed unsafe for inclusion in the parse output, then
   * this method returns <code>null</code> and the element will be ignored but
   * the content inside it is still processed. See the
   * {@link #isDiscardElement(String)} method for a way to discard the entire
   * contents of an element.
   * <p>
   * Subclasses can override this method to customize the default mapping.
   *
   * @deprecated Use the {@link HtmlMapper} mechanism to customize the HTML
   *             mapping. This method will be removed in Tika 1.0.
   * @since Apache Tika 0.5
   * @param name
   *          HTML element name (upper case)
   * @return XHTML element name (lower case), or <code>null</code> if the
   *         element is unsafe
   */
  protected String mapSafeElement(String name) {
    return DefaultHtmlMapper.INSTANCE.mapSafeElement(name);
  }

  /**
   * Checks whether all content within the given HTML element should be
   * discarded instead of including it in the parse output. Subclasses can
   * override this method to customize the set of discarded elements.
   *
   * @deprecated Use the {@link HtmlMapper} mechanism to customize the HTML
   *             mapping. This method will be removed in Tika 1.0.
   * @since Apache Tika 0.5
   * @param name
   *          HTML element name (upper case)
   * @return <code>true</code> if content inside the named element should be
   *         ignored, <code>false</code> otherwise
   */
  protected boolean isDiscardElement(String name) {
    return DefaultHtmlMapper.INSTANCE.isDiscardElement(name);
  }

  /**
   * @deprecated Use the {@link HtmlMapper} mechanism to customize the HTML
   *             mapping. This method will be removed in Tika 1.0.
   **/
  public String mapSafeAttribute(String elementName, String attributeName) {
    return DefaultHtmlMapper.INSTANCE.mapSafeAttribute(elementName,
        attributeName);
  }

  /**
   * Adapter class that maintains backwards compatibility with the protected
   * HtmlParser methods. Making HtmlParser implement HtmlMapper directly would
   * require those methods to be public, which would break backwards
   * compatibility with subclasses.
   *
   * @deprecated Use the {@link HtmlMapper} mechanism to customize the HTML
   *             mapping. This class will be removed in Tika 1.0.
   */
  private class HtmlParserMapper implements HtmlMapper {
    public String mapSafeElement(String name) {
      return HtmlParser.this.mapSafeElement(name);
    }

    public boolean isDiscardElement(String name) {
      return HtmlParser.this.isDiscardElement(name);
    }

    public String mapSafeAttribute(String elementName, String attributeName) {
      return HtmlParser.this.mapSafeAttribute(elementName, attributeName);
    }
  }

}