HTMLPageParser.java example

Explorer

sitemesh2-master
- src
  - java
    - com
      - opensymphony
        module
        sitemesh
        Config.java
        Decorator.java
        DecoratorMapper.java
        DefaultSitemeshBuffer.java
        Factory.java
        HTMLPage.java
        Page.java
        PageParser.java
        PageParserSelector.java
        RequestConstants.java
        SitemeshBuffer.java
        SitemeshBufferFragment.java
        SitemeshBufferWriter.java
        SitemeshWriter.java
        factory
        BaseFactory.java
        DefaultFactory.java
        FactoryException.java
        filter
        Buffer.java
        DebugResponseWrapper.java
        HttpContentType.java
        PageFilter.java
        PageRequestWrapper.java
        PageResponseWrapper.java
        RequestDispatcherWrapper.java
        RoutablePrintWriter.java
        RoutableServletOutputStream.java
        SitemeshPrintWriter.java
        TextEncoder.java
        freemarker
        FreemarkerDecoratorServlet.java
        html
        BasicRule.java
        BlockExtractingRule.java
        CustomTag.java
        HTMLProcessor.java
        HTMLProcessorContext.java
        State.java
        StateChangeListener.java
        StateTransitionRule.java
        Tag.java
        TagRule.java
        Text.java
        TextFilter.java
        rules
        BodyTagRule.java
        ContentBlockExtractingRule.java
        FramesetRule.java
        HeadExtractingRule.java
        HtmlAttributesRule.java
        MSOfficeDocumentPropertiesRule.java
        MetaTagRule.java
        PageBuilder.java
        ParameterExtractingRule.java
        RegexReplacementTextFilter.java
        TagReplaceRule.java
        TitleExtractingRule.java
        tokenizer
        Parser.java
        TagTokenizer.java
        TokenHandler.java
        util
        CharArray.java
        StringSitemeshBuffer.java
        mapper
        AbstractDecoratorMapper.java
        AgentDecoratorMapper.java
        ConfigDecoratorMapper.java
        ConfigLoader.java
        CookieDecoratorMapper.java
        DefaultDecorator.java
        EnvEntryDecoratorMapper.java
        FileDecoratorMapper.java
        FrameSetDecoratorMapper.java
        InlineDecoratorMapper.java
        LanguageDecoratorMapper.java
        NullDecoratorMapper.java
        OSDecoratorMapper.java
        PageDecoratorMapper.java
        ParameterDecoratorMapper.java
        PathMapper.java
        PrintableDecoratorMapper.java
        RobotDecoratorMapper.java
        SessionDecoratorMapper.java
        multipass
        DivExtractingPageParser.java
        ExtractPropertyTag.java
        MultipassFilter.java
        MultipassReplacementPageParser.java
        parser
        AbstractHTMLPage.java
        AbstractPage.java
        FastPage.java
        FastPageParser.java
        HTMLPageParser.java
        PartialPageParser.java
        PartialPageParserHtmlPage.java
        PartialPageParserPage.java
        SuperFastSimplePageParser.java
        TokenizedHTMLPage.java
        taglib
        AbstractTag.java
        decorator
        BodyTag.java
        HeadTag.java
        PropertyTag.java
        TitleTag.java
        UseHTMLPageTEI.java
        UsePageTEI.java
        UsePageTag.java
        page
        ApplyDecoratorTag.java
        ParamTag.java
        tapestry
        Property.java
        SiteMeshBase.java
        Title.java
        Util.java
        util
        CharArrayReader.java
        CharArrayWriter.java
        ClassLoaderUtil.java
        Container.java
        FastByteArrayOutputStream.java
        OutputConverter.java
        velocity
        VelocityDecoratorServlet.java
        sitemesh
        Content.java
        ContentProcessor.java
        Decorator.java
        DecoratorSelector.java
        SiteMeshContext.java
        compatability
        Content2HTMLPage.java
        DecoratorMapper2DecoratorSelector.java
        HTMLPage2Content.java
        OldDecorator2NewDecorator.java
        PageParser2ContentProcessor.java
        webapp
        ContainerTweaks.java
        ContentBufferingResponse.java
        SiteMeshFilter.java
        SiteMeshWebAppContext.java
        decorator
        BaseWebAppDecorator.java
        DispatchedDecorator.java
        ExternalDispatchedDecorator.java
        NoDecorator.java
  - test
    - com
      - opensymphony
        module
        sitemesh
        chaining
        ChainingBufferTest.java
        html
        CustomTagTest.java
        HTMLProcessorTest.java
        StateTest.java
        rules
        RegexReplacementTextFilterTest.java
        tokenizer
        MockTokenHandler.java
        TagTokenizerTest.java
        mapper
        ConfigLoaderTest.java
        PathMapperTest.java
        multipass
        DivExtractingPageParserTest.java
        parser
        HTMLPageParserTest.java
        ParserPerformanceComparison.java
- testsuite
  - src
    - java
      - testsuite
        config
        Application.java
        ConfigException.java
        ConfigReader.java
        Server.java
        deploy
        DeployWebApps.java
        i18n
        EncodingFilter.java
        sitemesh
        BasicPageTest.java
        BinaryFileTest.java
        ContentLengthTest.java
        ExcludesPatternTest.java
        FreemarkerDecoratorTest.java
        InlineDecoratorTest.java
        JettyWebServer.java
        MultipassTest.java
        RedirectTest.java
        RequestTest.java
        SimpleDecoratorTest.java
        SiteMeshTestSuite.java
        TomcatWebServer.java
        VelocityDecoratorTest.java
        WelcomePageTest.java
        tester
        Report.java
        WebTest.java
        unittests
        ParserGrinder.java
    - webapp
      - WEB-INF
        src
        testsuite
        servlets
        ContentLengthServlet.java
        DifferentWaysOfSpecifyingContentType.java
        ForwardServlet.java
        OutputServlet.java
        StandardServlet.java

package com.opensymphony.module.sitemesh.parser;

import com.opensymphony.module.sitemesh.DefaultSitemeshBuffer;
import com.opensymphony.module.sitemesh.Page;
import com.opensymphony.module.sitemesh.PageParser;
import com.opensymphony.module.sitemesh.SitemeshBuffer;
import com.opensymphony.module.sitemesh.SitemeshBufferFragment;
import com.opensymphony.module.sitemesh.html.HTMLProcessor;
import com.opensymphony.module.sitemesh.html.State;
import com.opensymphony.module.sitemesh.html.StateTransitionRule;
import com.opensymphony.module.sitemesh.html.util.CharArray;
import com.opensymphony.module.sitemesh.html.rules.BodyTagRule;
import com.opensymphony.module.sitemesh.html.rules.ContentBlockExtractingRule;
import com.opensymphony.module.sitemesh.html.rules.FramesetRule;
import com.opensymphony.module.sitemesh.html.rules.HeadExtractingRule;
import com.opensymphony.module.sitemesh.html.rules.HtmlAttributesRule;
import com.opensymphony.module.sitemesh.html.rules.MSOfficeDocumentPropertiesRule;
import com.opensymphony.module.sitemesh.html.rules.MetaTagRule;
import com.opensymphony.module.sitemesh.html.rules.ParameterExtractingRule;
import com.opensymphony.module.sitemesh.html.rules.TitleExtractingRule;
import com.opensymphony.module.sitemesh.html.rules.PageBuilder;

import java.io.IOException;

/**
 * <p>Builds an HTMLPage object from an HTML document. This behaves
 * similarly to the FastPageParser, however it's a complete rewrite that is simpler to add custom features to such as
 * extraction and transformation of elements.</p>
 *
 * <p>To customize the rules used, this class can be extended and have the userDefinedRules() methods overridden.</p>
 *
 * @author Joe Walnes
 *
 * @see HTMLProcessor
 */
public class HTMLPageParser implements PageParser {

    public Page parse(char[] buffer) throws IOException {
        return parse(new DefaultSitemeshBuffer(buffer));
    }

    public Page parse(SitemeshBuffer buffer) throws IOException {
        SitemeshBufferFragment.Builder head = SitemeshBufferFragment.builder().setBuffer(buffer).setLength(0);
        SitemeshBufferFragment.Builder body = SitemeshBufferFragment.builder().setBuffer(buffer);
        TokenizedHTMLPage page = new TokenizedHTMLPage(buffer);
        HTMLProcessor processor = new HTMLProcessor(buffer, body);
        State html = processor.defaultState();

        // Core rules for SiteMesh to be functional.
        html.addRule(new HeadExtractingRule(head)); // contents of <head>
        html.addRule(new BodyTagRule(page, body)); // contents of <body>
        html.addRule(new TitleExtractingRule(page)); // the <title>
        html.addRule(new FramesetRule(page)); // if the page is a frameset

        // Additional rules - designed to be tweaked.
        addUserDefinedRules(html, page);

        processor.process();
        page.setBody(body.build());
        page.setHead(head.build());
        return page;
    }

    protected void addUserDefinedRules(State html, PageBuilder page) {
        // Ensure that while in <xml> tag, none of the other rules kick in.
        // For example <xml><book><title>hello</title></book></xml> should not change the affect the title of the page.
        State xml = new State();
        html.addRule(new StateTransitionRule("xml", xml));

        // Useful properties
        html.addRule(new HtmlAttributesRule(page));         // attributes in <html> element
        html.addRule(new MetaTagRule(page));                // all <meta> tags
        html.addRule(new ParameterExtractingRule(page));    // <parameter> blocks
        html.addRule(new ContentBlockExtractingRule(page)); // <content> blocks

        // Capture properties written to documents by MS Office (author, version, company, etc).
        // Note: These properties are from the xml state, not the html state.
        xml.addRule(new MSOfficeDocumentPropertiesRule(page));
    }

}