ZipCodePageProcessor.java example

Explorer

webmagic-master
- webmagic-core
  - src
    - main
      - java
        us
        codecraft
        webmagic
        Page.java
        Request.java
        ResultItems.java
        Site.java
        Spider.java
        SpiderListener.java
        Task.java
        downloader
        AbstractDownloader.java
        CustomRedirectStrategy.java
        Downloader.java
        HttpClientDownloader.java
        HttpClientGenerator.java
        HttpClientRequestContext.java
        HttpUriRequestConverter.java
        model
        HttpRequestBody.java
        pipeline
        CollectorPipeline.java
        ConsolePipeline.java
        FilePipeline.java
        Pipeline.java
        ResultItemsCollectorPipeline.java
        processor
        PageProcessor.java
        SimplePageProcessor.java
        example
        BaiduBaikePageProcessor.java
        GithubRepoPageProcessor.java
        ZhihuPageProcessor.java
        proxy
        Proxy.java
        ProxyProvider.java
        SimpleProxyProvider.java
        scheduler
        DuplicateRemovedScheduler.java
        MonitorableScheduler.java
        PriorityScheduler.java
        QueueScheduler.java
        Scheduler.java
        component
        DuplicateRemover.java
        HashSetDuplicateRemover.java
        selector
        AbstractSelectable.java
        AndSelector.java
        BaseElementSelector.java
        CssSelector.java
        ElementSelector.java
        Html.java
        HtmlNode.java
        Json.java
        JsonPathSelector.java
        LinksSelector.java
        OrSelector.java
        PlainText.java
        RegexResult.java
        RegexSelector.java
        ReplaceSelector.java
        Selectable.java
        Selector.java
        Selectors.java
        SmartContentSelector.java
        XpathSelector.java
        thread
        CountableThreadPool.java
        utils
        CharsetUtils.java
        Experimental.java
        FilePersistentBase.java
        HttpClientUtils.java
        HttpConstant.java
        NumberUtils.java
        ProxyUtils.java
        UrlUtils.java
        WMCollections.java
    - test
      - java
        us
        codecraft
        webmagic
        HtmlTest.java
        RequestTest.java
        ResultItemsTest.java
        SpiderTest.java
        downloader
        HttpClientDownloaderTest.java
        MockGithubDownloader.java
        example
        GithubRepoPageProcessorTest.java
        pipeline
        FilePipelineTest.java
        proxy
        ProxyTest.java
        SimpleProxyProviderTest.java
        scheduler
        DuplicateRemovedSchedulerTest.java
        PrioritySchedulerTest.java
        selector
        ExtractorsTest.java
        JsonPathSelectorTest.java
        JsonTest.java
        LinksSelectorTest.java
        RegexSelectorTest.java
        SelectorTest.java
        utils
        UrlUtilsTest.java
- webmagic-extension
  - src
    - main
      - java
        us
        codecraft
        webmagic
        MultiPageModel.java
        configurable
        ConfigurablePageProcessor.java
        ExpressionType.java
        ExtractRule.java
        downloader
        PhantomJSDownloader.java
        example
        AppStore.java
        BaiduBaike.java
        GithubRepo.java
        GithubRepoApi.java
        GithubRepoPageMapper.java
        MonitorExample.java
        OschinaBlog.java
        PatternProcessorExample.java
        handler
        CompositePageProcessor.java
        CompositePipeline.java
        PatternProcessor.java
        PatternRequestMatcher.java
        RequestMatcher.java
        SubPageProcessor.java
        SubPipeline.java
        model
        AfterExtractor.java
        ConsolePageModelPipeline.java
        Extractor.java
        FieldExtractor.java
        HasKey.java
        ModelPageProcessor.java
        ModelPipeline.java
        OOSpider.java
        PageMapper.java
        PageModelCollectorPipeline.java
        PageModelExtractor.java
        annotation
        ComboExtract.java
        ExtractBy.java
        ExtractByUrl.java
        Formatter.java
        HelpUrl.java
        TargetUrl.java
        formatter
        BasicTypeFormatter.java
        DateFormatter.java
        ObjectFormatter.java
        ObjectFormatters.java
        monitor
        SpiderMonitor.java
        SpiderStatus.java
        SpiderStatusMXBean.java
        pipeline
        CollectorPageModelPipeline.java
        FilePageModelPipeline.java
        JsonFilePageModelPipeline.java
        JsonFilePipeline.java
        MultiPagePipeline.java
        PageModelPipeline.java
        scheduler
        BloomFilterDuplicateRemover.java
        FileCacheQueueScheduler.java
        RedisPriorityScheduler.java
        RedisScheduler.java
        utils
        ClassUtils.java
        DoubleKeyMap.java
        ExtractorUtils.java
        IPUtils.java
        MultiKeyMapBase.java
    - test
      - java
        us
        codecraft
        webmagic
        MockPageModelPipeline.java
        MockPipeline.java
        configurable
        ConfigurablePageProcessorTest.java
        downloader
        MockGithubDownloader.java
        formatter
        DateFormatterTest.java
        model
        BaseRepo.java
        GithubRepo.java
        GithubRepoTest.java
        MockModel.java
        ModelPageProcessorTest.java
        monitor
        CustomSpiderStatus.java
        CustomSpiderStatusMXBean.java
        SeedUrlWithPortTest.java
        SpiderMonitorTest.java
        processor
        GithubRepoProcessor.java
        scheduler
        BloomFilterDuplicateRemoverTest.java
        RedisPrioritySchedulerTest.java
        RedisSchedulerTest.java
        utils
        IPUtilsTest.java
- webmagic-samples
  - src
    - main
      - java
        us
        codecraft
        webmagic
        main
        QuickStarter.java
        model
        samples
        BaiduNews.java
        Blog.java
        DianpingFtlDataScanner.java
        GithubRepo.java
        IteyeBlog.java
        JokejiModel.java
        Kr36NewsModel.java
        News163.java
        OschinaAnswer.java
        OschinaBlog.java
        QQMeishi.java
        samples
        AlexanderMcqueenGoodsProcessor.java
        AmanzonPageProcessor.java
        AngularJSProcessor.java
        DiandianBlogProcessor.java
        DiaoyuwengProcessor.java
        F58PageProcesser.java
        GithubRepo.java
        GithubRepoPageProcessor.java
        HuxiuProcessor.java
        InfoQMiniBookProcessor.java
        IteyeBlogProcessor.java
        KaichibaProcessor.java
        MamacnPageProcessor.java
        MeicanProcessor.java
        NjuBBSProcessor.java
        PhantomJSPageProcessor.java
        QzoneBlogProcessor.java
        SinaBlogProcessor.java
        TianyaPageProcesser.java
        ZhihuPageProcessor.java
        formatter
        StringTemplateFormatter.java
        pipeline
        OneFilePipeline.java
        ReplacePipeline.java
        scheduler
        DelayQueueScheduler.java
        LevelLimitScheduler.java
        ZipCodePageProcessor.java
    - test
      - java
        us
        codecraft
        webmagic
        SpiderTest.java
        model
        ProcessorBenchmark.java
        processor
        SinablogProcessorTest.java
        samples
        scheduler
        DelayQueueSchedulerTest.java
- webmagic-saxon
  - src
    - main
      - java
        us
        codecraft
        webmagic
        selector
        Xpath2Selector.java
    - test
      - java
        us
        codecraft
        webmagic
        selector
        XpathSelectorTest.java
- webmagic-scripts
  - src
    - main
      - java
        us
        codecraft
        webmagic
        scripts
        Language.java
        ScriptConsole.java
        ScriptEnginePool.java
        ScriptProcessor.java
        ScriptProcessorBuilder.java
    - test
      - java
        us
        codecraft
        webmagic
        scripts
        ScriptProcessorTest.java
- webmagic-selenium
  - src
    - main
      - java
        us
        codecraft
        webmagic
        downloader
        selenium
        SeleniumDownloader.java
        WebDriverPool.java
    - test
      - java
        us
        codecraft
        webmagic
        downloader
        SeleniumTest.java
        selenium
        SeleniumDownloaderTest.java
        WebDriverPoolTest.java
        samples
        GooglePlayProcessor.java
        HuabanProcessor.java

package us.codecraft.webmagic.samples.scheduler;

import org.apache.commons.lang3.StringUtils;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.scheduler.PriorityScheduler;

import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import static us.codecraft.webmagic.selector.Selectors.xpath;

/**
 * @author code4crafter@gmail.com
 */
public class ZipCodePageProcessor implements PageProcessor {

    private Site site = Site.me().setCharset("gb2312")
            .setSleepTime(100);

    @Override
    public void process(Page page) {
        if (page.getUrl().toString().equals("http://www.ip138.com/post/")) {
            processCountry(page);
        } else if (page.getUrl().regex("http://www\\.ip138\\.com/\\d{6}[/]?$").toString() != null) {
            processDistrict(page);
        } else {
            processProvince(page);
        }

    }

    private void processCountry(Page page) {
        List<String> provinces = page.getHtml().xpath("//*[@id=\"newAlexa\"]/table/tbody/tr/td").all();
        for (String province : provinces) {
            String link = xpath("//@href").select(province);
            String title = xpath("/text()").select(province);
            Request request = new Request(link).setPriority(0).putExtra("province", title);
            page.addTargetRequest(request);
        }
    }

    private void processProvince(Page page) {
        //这里仅靠xpath没法精准定位，所以使用正则作为筛选，不符合正则的会被过滤掉
        List<String> districts = page.getHtml().xpath("//body/table/tbody/tr[@bgcolor=\"#ffffff\"]").all();
        Pattern pattern = Pattern.compile("<td>([^<>]+)</td>.*?href=\"(.*?)\"",Pattern.DOTALL);
        for (String district : districts) {
            Matcher matcher = pattern.matcher(district);
            while (matcher.find()) {
                String title = matcher.group(1);
                String link = matcher.group(2);
                Request request = new Request(link).setPriority(1).putExtra("province", page.getRequest().getExtra("province")).putExtra("district", title);
                page.addTargetRequest(request);
            }
        }
    }

    private void processDistrict(Page page) {
        String province = page.getRequest().getExtra("province").toString();
        String district = page.getRequest().getExtra("district").toString();
        String zipCode = page.getHtml().regex("<h2>邮编：(\\d+)</h2>").toString();
        page.putField("result", StringUtils.join(new String[]{province, district,
                zipCode}, "\t"));
        List<String> links = page.getHtml().links().regex("http://www\\.ip138\\.com/\\d{6}[/]?$").all();
        for (String link : links) {
            page.addTargetRequest(new Request(link).setPriority(2).putExtra("province", province).putExtra("district", district));
        }

    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        Spider spider = Spider.create(new ZipCodePageProcessor()).scheduler(new PriorityScheduler()).addUrl("http://www.ip138.com/post/");

        spider.run();
    }
}