JsoupBasedHtmlParser.java example

Explorer

jmeter-master
- jmeter-trunk
  - src
  - test
    - src
      - org
        apache
        commons
        cli
        avalon
        ClutilTestCase.java
        jmeter
        JMeterVersionTest.java
        assertions
        DurationAssertionTest.java
        MD5HexAssertionTest.java
        ResponseAssertionTest.java
        SMIMEAssertionTest.java
        SizeAssertionTest.java
        XMLSchemaAssertionTest.java
        XPathAssertionTest.java
        XmlAssertionTest.java
        config
        TestCVSDataSet.java
        TestRandomVariableConfig.java
        gui
        TestArgumentsPanel.java
        control
        TestGenericController.java
        TestIfController.java
        TestInterleaveControl.java
        TestLoopController.java
        TestOnceOnlyController.java
        TestRandomController.java
        TestRandomOrderController.java
        TestRunTime.java
        TestSwitchController.java
        TestThroughputController.java
        TestTransactionController.java
        TestWhileController.java
        engine
        DistributedRunnerTest.java
        LocalHostTest.java
        TestTreeCloner.java
        util
        PackageTest.java
        TestValueReplacer.java
        extractor
        TestHtmlExtractorJSoup.java
        TestHtmlExtractorJodd.java
        TestJSONPostProcessor.java
        TestRegexExtractor.java
        TestXPathExtractor.java
        functions
        CSVReadFunctionTest.java
        ComponentReferenceFunctionTest.java
        EvalFunctionTest.java
        FunctionTestHelper.java
        PackageTest.java
        RandomFunctionTest.java
        SplitFunctionTest.java
        StringFromFileFunctionTest.java
        SumFunctionTest.java
        TestEscapeOroRegexpChars.java
        TestFileRowColContainer.java
        TestFileToString.java
        TestGroovyFunction.java
        TestJavascriptFunction.java
        TestJavascriptFunctionWithRhino.java
        TestJexl2Function.java
        TestJexl3Function.java
        TestMachineIPName.java
        TestRandomFromMultipleVars.java
        TestRegexFunction.java
        TestSamplerNameFunction.java
        TestSetProperty.java
        TestSimpleFunctions.java
        TestTimeFunction.java
        TestTimeShiftFunction.java
        TestUrlEncodeDecode.java
        VariableTest.java
        gui
        action
        TestLoad.java
        TestSave.java
        logging
        TestGuiLogEventAppender.java
        util
        JSyntaxTextAreaTest.java
        TestMenuFactory.java
        TristateCheckBoxTest.java
        junit
        JMeterTest.java
        JMeterTestCase.java
        JMeterTestCaseJUnit.java
        categories
        ExcludeCategoryFilter.java
        NeedGuiTests.java
        stubs
        TestSampler.java
        listeners
        TestResultAction.java
        protocol
        http
        config
        MultipartUrlConfigTest.java
        UrlConfigTest.java
        control
        TestAuthManager.java
        TestAuthorization.java
        TestCacheManagerBase.java
        TestCacheManagerHC4.java
        TestCacheManagerUrlConnection.java
        TestCacheManagerUrlConnectionBase.java
        TestDNSCacheManager.java
        TestHC4CookieManager.java
        TestHTTPMirrorThread.java
        gui
        TestHttpTestSampleGui.java
        modifier
        TestAnchorModifier.java
        TestURLRewritingModifier.java
        parser
        NotReusableParser.java
        ReusableParser.java
        TestBaseParser.java
        TestBug60842HtmlParser.java
        TestCssParser.java
        TestHTMLParser.java
        TestHtmlParsingUtils.java
        proxy
        NonGuiProxySample.java
        TestHttpRequestHdr.java
        TestProxyControl.java
        sampler
        HTTPNullSampler.java
        HTTPSampler3.java
        NullURLConnection.java
        PackageTest.java
        PostWriterTest.java
        PutWriterTest.java
        TestHTTPSamplers.java
        TestHTTPSamplersAgainstHttpMirrorServer.java
        TestHttpWebdav.java
        util
        TestHTTPArgument.java
        TestHTTPFileArg.java
        TestHTTPFileArgs.java
        TestHTTPUtils.java
        accesslog
        TestLogFilter.java
        TestSessionFilter.java
        TestTCLogParser.java
        visualizers
        RequestViewHTTPTest.java
        jms
        sampler
        PublisherSamplerTest.java
        render
        BinaryMessageRendererTest.java
        MessageRendererTest.java
        ObjectMessageRendererTest.java
        Person.java
        TextMessageRendererTest.java
        ldap
        config
        gui
        PackageTest.java
        tcp
        sampler
        BinaryTCPClientImplTest.java
        LengthPrefixedBinaryTCPClientImplTest.java
        TCPClientDecoratorTest.java
        report
        core
        CsvSampleReaderTest.java
        SampleMetadataTest.java
        TestCsvSampleWriter.java
        dashboard
        ApdexPerTransactionTest.java
        processor
        ErrorsSummaryConsumerTest.java
        FieldSampleComparatorTest.java
        reporters
        TestResultSaver.java
        resources
        PackageTest.java
        TestPropertiesFiles.java
        samplers
        NullSampler.java
        TestSampleResult.java
        TestSampleSaveConfiguration.java
        save
        TestCSVSaveService.java
        TestSaveService.java
        services
        TestFileServer.java
        test
        ResourceLocator.java
        testbeans
        gui
        PackageTest.java
        TestBooleanPropertyEditor.java
        TestComboStringEditor.java
        TestFieldStringEditor.java
        testelement
        PackageTest.java
        TestElementTest.java
        TestHeaderManager.java
        TestNumberProperty.java
        property
        AbstractPropertyTest.java
        PackageTest.java
        threads
        JMeterContextServiceHelper.java
        TestJMeterContextService.java
        TestTestCompiler.java
        timers
        ConstantThroughputTimerTest.java
        util
        JSR223TestElementTest.java
        LogRecord.java
        LogRecordingDelegatingLogger.java
        PackageTest.java
        StringUtilitiesTest.java
        TestJMeterUtils.java
        XPathUtilTest.java
        visualizers
        GenerateTreeGui.java
        TestRenderAsJson.java
        TestSampleCompareTo.java
        TestSamplingStatCalculator.java
        jorphan
        TestFunctorUsers.java
        TestXMLBuffer.java
        collections
        PackageTest.java
        exec
        TestKeyToolUtils.java
        gui
        ObjectTableModelTest.java
        ObjectTableSorterTest.java
        TableModelEventBacker.java
        math
        TestStatCalculator.java
        reflect
        TestClassFinder.java
        TestClassTools.java
        TestFunctor.java
        test
        AllTests.java
        util
        TestConverter.java
        TestJorphanUtils.java

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *   http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 *
 */

package org.apache.jmeter.protocol.http.parser;

import java.net.MalformedURLException;
import java.net.URL;
import java.util.Iterator;

import org.apache.commons.lang3.StringUtils;
import org.apache.jmeter.protocol.http.util.ConversionUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.nodes.Node;
import org.jsoup.select.NodeTraversor;
import org.jsoup.select.NodeVisitor;

/**
 * Parser based on JSOUP
 * @since 2.10
 * TODO Factor out common code between {@link LagartoBasedHtmlParser} and this one (adapter pattern)
 */
public class JsoupBasedHtmlParser extends HTMLParser {

    /*
     * A dummy class to pass the pointer of URL.
     */
    private static class URLPointer {
        private URLPointer(URL newUrl) {
            url = newUrl;
        }
        private URL url;
    }

    private static final class JMeterNodeVisitor implements NodeVisitor {

        private URLCollection urls;
        private URLPointer baseUrl;

        /**
         * @param baseUrl base url to extract possibly missing information from urls found in <code>urls</code>
         * @param urls collection of urls to consider
         */
        public JMeterNodeVisitor(final URLPointer baseUrl, URLCollection urls) {
            this.urls = urls;
            this.baseUrl = baseUrl;
        }

        private void extractAttribute(Element tag, String attributeName) {
            String url = tag.attr(attributeName);
            String normalizedUrl = normalizeUrlValue(url);
            if(normalizedUrl != null) {
                urls.addURL(normalizedUrl, baseUrl.url);
            }
        }

        @Override
        public void head(Node node, int depth) {
            if (!(node instanceof Element)) {
                return;
            }
            Element tag = (Element) node;
            String tagName = tag.tagName().toLowerCase();
            if (tagName.equals(TAG_BODY)) {
                extractAttribute(tag, ATT_BACKGROUND);
            } else if (tagName.equals(TAG_SCRIPT)) {
                extractAttribute(tag, ATT_SRC);
            } else if (tagName.equals(TAG_BASE)) {
                String baseref = tag.attr(ATT_HREF);
                try {
                    if (!StringUtils.isEmpty(baseref))// Bugzilla 30713
                    {
                        baseUrl.url = ConversionUtils.makeRelativeURL(baseUrl.url, baseref);
                    }
                } catch (MalformedURLException e1) {
                    throw new RuntimeException(e1);
                }
            } else if (tagName.equals(TAG_IMAGE)) {
                extractAttribute(tag, ATT_SRC);
            } else if (tagName.equals(TAG_APPLET)) {
                extractAttribute(tag, ATT_CODE);
            } else if (tagName.equals(TAG_OBJECT)) {
                extractAttribute(tag, ATT_CODEBASE);
                extractAttribute(tag, ATT_DATA);
            } else if (tagName.equals(TAG_INPUT)) {
                // we check the input tag type for image
                if (ATT_IS_IMAGE.equalsIgnoreCase(tag.attr(ATT_TYPE))) {
                    // then we need to download the binary
                    extractAttribute(tag, ATT_SRC);
                }
                // Bug 51750
            } else if (tagName.equals(TAG_FRAME) || tagName.equals(TAG_IFRAME)) {
                extractAttribute(tag, ATT_SRC);
            } else if (tagName.equals(TAG_EMBED)) {
                extractAttribute(tag, ATT_SRC);
            } else if (tagName.equals(TAG_BGSOUND)){
                extractAttribute(tag, ATT_SRC);
            } else if (tagName.equals(TAG_LINK)) {
                // Putting the string first means it works even if the attribute is null
                if (STYLESHEET.equalsIgnoreCase(tag.attr(ATT_REL))) {
                    extractAttribute(tag, ATT_HREF);
                }
            } else {
                extractAttribute(tag, ATT_BACKGROUND);
            }


            // Now look for URLs in the STYLE attribute
            String styleTagStr = tag.attr(ATT_STYLE);
            if(styleTagStr != null) {
                HtmlParsingUtils.extractStyleURLs(baseUrl.url, urls, styleTagStr);
            }
        }

        @Override
        public void tail(Node arg0, int arg1) {
            // Noop
        }
    }

    @Override
    public Iterator<URL> getEmbeddedResourceURLs(String userAgent, byte[] html, URL baseUrl,
            URLCollection coll, String encoding) throws HTMLParseException {
        try {
            // TODO Handle conditional comments for IE
            String contents = new String(html,encoding);
            Document doc = Jsoup.parse(contents);
            JMeterNodeVisitor nodeVisitor = new JMeterNodeVisitor(new URLPointer(baseUrl), coll);
            new NodeTraversor(nodeVisitor).traverse(doc);
            return coll.iterator();
        } catch (Exception e) {
            throw new HTMLParseException(e);
        }
    }
}