PhantomJSDownloader.java example

Explorer

webmagic-master
- webmagic-core
  - src
    - main
      - java
        us
        codecraft
        webmagic
        Page.java
        Request.java
        ResultItems.java
        Site.java
        Spider.java
        SpiderListener.java
        Task.java
        downloader
        AbstractDownloader.java
        CustomRedirectStrategy.java
        Downloader.java
        HttpClientDownloader.java
        HttpClientGenerator.java
        HttpClientRequestContext.java
        HttpUriRequestConverter.java
        model
        HttpRequestBody.java
        pipeline
        CollectorPipeline.java
        ConsolePipeline.java
        FilePipeline.java
        Pipeline.java
        ResultItemsCollectorPipeline.java
        processor
        PageProcessor.java
        SimplePageProcessor.java
        example
        BaiduBaikePageProcessor.java
        GithubRepoPageProcessor.java
        ZhihuPageProcessor.java
        proxy
        Proxy.java
        ProxyProvider.java
        SimpleProxyProvider.java
        scheduler
        DuplicateRemovedScheduler.java
        MonitorableScheduler.java
        PriorityScheduler.java
        QueueScheduler.java
        Scheduler.java
        component
        DuplicateRemover.java
        HashSetDuplicateRemover.java
        selector
        AbstractSelectable.java
        AndSelector.java
        BaseElementSelector.java
        CssSelector.java
        ElementSelector.java
        Html.java
        HtmlNode.java
        Json.java
        JsonPathSelector.java
        LinksSelector.java
        OrSelector.java
        PlainText.java
        RegexResult.java
        RegexSelector.java
        ReplaceSelector.java
        Selectable.java
        Selector.java
        Selectors.java
        SmartContentSelector.java
        XpathSelector.java
        thread
        CountableThreadPool.java
        utils
        CharsetUtils.java
        Experimental.java
        FilePersistentBase.java
        HttpClientUtils.java
        HttpConstant.java
        NumberUtils.java
        ProxyUtils.java
        UrlUtils.java
        WMCollections.java
    - test
      - java
        us
        codecraft
        webmagic
        HtmlTest.java
        RequestTest.java
        ResultItemsTest.java
        SpiderTest.java
        downloader
        HttpClientDownloaderTest.java
        MockGithubDownloader.java
        example
        GithubRepoPageProcessorTest.java
        pipeline
        FilePipelineTest.java
        proxy
        ProxyTest.java
        SimpleProxyProviderTest.java
        scheduler
        DuplicateRemovedSchedulerTest.java
        PrioritySchedulerTest.java
        selector
        ExtractorsTest.java
        JsonPathSelectorTest.java
        JsonTest.java
        LinksSelectorTest.java
        RegexSelectorTest.java
        SelectorTest.java
        utils
        UrlUtilsTest.java
- webmagic-extension
  - src
    - main
      - java
        us
        codecraft
        webmagic
        MultiPageModel.java
        configurable
        ConfigurablePageProcessor.java
        ExpressionType.java
        ExtractRule.java
        downloader
        PhantomJSDownloader.java
        example
        AppStore.java
        BaiduBaike.java
        GithubRepo.java
        GithubRepoApi.java
        GithubRepoPageMapper.java
        MonitorExample.java
        OschinaBlog.java
        PatternProcessorExample.java
        handler
        CompositePageProcessor.java
        CompositePipeline.java
        PatternProcessor.java
        PatternRequestMatcher.java
        RequestMatcher.java
        SubPageProcessor.java
        SubPipeline.java
        model
        AfterExtractor.java
        ConsolePageModelPipeline.java
        Extractor.java
        FieldExtractor.java
        HasKey.java
        ModelPageProcessor.java
        ModelPipeline.java
        OOSpider.java
        PageMapper.java
        PageModelCollectorPipeline.java
        PageModelExtractor.java
        annotation
        ComboExtract.java
        ExtractBy.java
        ExtractByUrl.java
        Formatter.java
        HelpUrl.java
        TargetUrl.java
        formatter
        BasicTypeFormatter.java
        DateFormatter.java
        ObjectFormatter.java
        ObjectFormatters.java
        monitor
        SpiderMonitor.java
        SpiderStatus.java
        SpiderStatusMXBean.java
        pipeline
        CollectorPageModelPipeline.java
        FilePageModelPipeline.java
        JsonFilePageModelPipeline.java
        JsonFilePipeline.java
        MultiPagePipeline.java
        PageModelPipeline.java
        scheduler
        BloomFilterDuplicateRemover.java
        FileCacheQueueScheduler.java
        RedisPriorityScheduler.java
        RedisScheduler.java
        utils
        ClassUtils.java
        DoubleKeyMap.java
        ExtractorUtils.java
        IPUtils.java
        MultiKeyMapBase.java
    - test
      - java
        us
        codecraft
        webmagic
        MockPageModelPipeline.java
        MockPipeline.java
        configurable
        ConfigurablePageProcessorTest.java
        downloader
        MockGithubDownloader.java
        formatter
        DateFormatterTest.java
        model
        BaseRepo.java
        GithubRepo.java
        GithubRepoTest.java
        MockModel.java
        ModelPageProcessorTest.java
        monitor
        CustomSpiderStatus.java
        CustomSpiderStatusMXBean.java
        SeedUrlWithPortTest.java
        SpiderMonitorTest.java
        processor
        GithubRepoProcessor.java
        scheduler
        BloomFilterDuplicateRemoverTest.java
        RedisPrioritySchedulerTest.java
        RedisSchedulerTest.java
        utils
        IPUtilsTest.java
- webmagic-samples
  - src
    - main
      - java
        us
        codecraft
        webmagic
        main
        QuickStarter.java
        model
        samples
        BaiduNews.java
        Blog.java
        DianpingFtlDataScanner.java
        GithubRepo.java
        IteyeBlog.java
        JokejiModel.java
        Kr36NewsModel.java
        News163.java
        OschinaAnswer.java
        OschinaBlog.java
        QQMeishi.java
        samples
        AlexanderMcqueenGoodsProcessor.java
        AmanzonPageProcessor.java
        AngularJSProcessor.java
        DiandianBlogProcessor.java
        DiaoyuwengProcessor.java
        F58PageProcesser.java
        GithubRepo.java
        GithubRepoPageProcessor.java
        HuxiuProcessor.java
        InfoQMiniBookProcessor.java
        IteyeBlogProcessor.java
        KaichibaProcessor.java
        MamacnPageProcessor.java
        MeicanProcessor.java
        NjuBBSProcessor.java
        PhantomJSPageProcessor.java
        QzoneBlogProcessor.java
        SinaBlogProcessor.java
        TianyaPageProcesser.java
        ZhihuPageProcessor.java
        formatter
        StringTemplateFormatter.java
        pipeline
        OneFilePipeline.java
        ReplacePipeline.java
        scheduler
        DelayQueueScheduler.java
        LevelLimitScheduler.java
        ZipCodePageProcessor.java
    - test
      - java
        us
        codecraft
        webmagic
        SpiderTest.java
        model
        ProcessorBenchmark.java
        processor
        SinablogProcessorTest.java
        samples
        scheduler
        DelayQueueSchedulerTest.java
- webmagic-saxon
  - src
    - main
      - java
        us
        codecraft
        webmagic
        selector
        Xpath2Selector.java
    - test
      - java
        us
        codecraft
        webmagic
        selector
        XpathSelectorTest.java
- webmagic-scripts
  - src
    - main
      - java
        us
        codecraft
        webmagic
        scripts
        Language.java
        ScriptConsole.java
        ScriptEnginePool.java
        ScriptProcessor.java
        ScriptProcessorBuilder.java
    - test
      - java
        us
        codecraft
        webmagic
        scripts
        ScriptProcessorTest.java
- webmagic-selenium
  - src
    - main
      - java
        us
        codecraft
        webmagic
        downloader
        selenium
        SeleniumDownloader.java
        WebDriverPool.java
    - test
      - java
        us
        codecraft
        webmagic
        downloader
        SeleniumTest.java
        selenium
        SeleniumDownloaderTest.java
        WebDriverPoolTest.java
        samples
        GooglePlayProcessor.java
        HuabanProcessor.java

package us.codecraft.webmagic.downloader;

import org.apache.http.annotation.ThreadSafe;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.selector.PlainText;

import java.io.*;

/**
 * this downloader is used to download pages which need to render the javascript
 *
 * @author dolphineor@gmail.com
 * @version 0.5.3
 */
@ThreadSafe
public class PhantomJSDownloader extends AbstractDownloader {

    private static Logger logger = LoggerFactory.getLogger(PhantomJSDownloader.class);
    private static String crawlJsPath;
    private static String phantomJsCommand = "phantomjs"; // default

    private int retryNum;
    private int threadNum;

    public PhantomJSDownloader() {
        this.initPhantomjsCrawlPath();
    }
    
    /**
     * 添加新的构造函数，支持phantomjs自定义命令
     * 
     * example: 
     *    phantomjs.exe 支持windows环境
     *    phantomjs --ignore-ssl-errors=yes 忽略抓取地址是https时的一些错误
     *    /usr/local/bin/phantomjs 命令的绝对路径，避免因系统环境变量引起的IOException
     *   
     * @param phantomJsCommand phantomJsCommand
     */
    public PhantomJSDownloader(String phantomJsCommand) {
        this.initPhantomjsCrawlPath();
        PhantomJSDownloader.phantomJsCommand = phantomJsCommand;
    }
    
    /**
     * 新增构造函数，支持crawl.js路径自定义，因为当其他项目依赖此jar包时，runtime.exec()执行phantomjs命令时无使用法jar包中的crawl.js
     * <pre>
     * crawl.js start --
     * 
     *   var system = require('system');
     *   var url = system.args[1];
     *   
     *   var page = require('webpage').create();
     *   page.settings.loadImages = false;
     *   page.settings.resourceTimeout = 5000;
     *   
     *   page.open(url, function (status) {
     *       if (status != 'success') {
     *           console.log("HTTP request failed!");
     *       } else {
     *           console.log(page.content);
     *       }
     *   
     *       page.close();
     *       phantom.exit();
     *   });
     *   
     * -- crawl.js end
     * </pre>
     * 具体项目时可以将以上js代码复制下来使用
     *   
     * example:
     *    new PhantomJSDownloader("/your/path/phantomjs", "/your/path/crawl.js");
     * 
     * @param phantomJsCommand phantomJsCommand
     * @param crawlJsPath crawlJsPath
     */
    public PhantomJSDownloader(String phantomJsCommand, String crawlJsPath) {
      PhantomJSDownloader.phantomJsCommand = phantomJsCommand;
      PhantomJSDownloader.crawlJsPath = crawlJsPath;
    }
    
    private void initPhantomjsCrawlPath() {
        PhantomJSDownloader.crawlJsPath = new File(this.getClass().getResource("/").getPath()).getPath() + System.getProperty("file.separator") + "crawl.js ";
    }

    @Override
    public Page download(Request request, Task task) {
        if (logger.isInfoEnabled()) {
            logger.info("downloading page: " + request.getUrl());
        }
        String content = getPage(request);
        if (content.contains("HTTP request failed")) {
            for (int i = 1; i <= getRetryNum(); i++) {
                content = getPage(request);
                if (!content.contains("HTTP request failed")) {
                    break;
                }
            }
            if (content.contains("HTTP request failed")) {
                //when failed
                Page page = new Page();
                page.setRequest(request);
                return page;
            }
        }

        Page page = new Page();
        page.setRawText(content);
        page.setUrl(new PlainText(request.getUrl()));
        page.setRequest(request);
        page.setStatusCode(200);
        return page;
    }

    @Override
    public void setThread(int threadNum) {
        this.threadNum = threadNum;
    }

    protected String getPage(Request request) {
        try {
            String url = request.getUrl();
            Runtime runtime = Runtime.getRuntime();
            Process process = runtime.exec(phantomJsCommand + " " + crawlJsPath + " " + url);
            InputStream is = process.getInputStream();
            BufferedReader br = new BufferedReader(new InputStreamReader(is));
            StringBuffer stringBuffer = new StringBuffer();
            String line;
            while ((line = br.readLine()) != null) {
                stringBuffer.append(line).append("\n");
            }
            return stringBuffer.toString();
        } catch (IOException e) {
            e.printStackTrace();
        }

        return null;
    }

    public int getRetryNum() {
        return retryNum;
    }

    public PhantomJSDownloader setRetryNum(int retryNum) {
        this.retryNum = retryNum;
        return this;
    }
}