package com.bmk.crawler; import java.io.IOException; import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; import java.util.concurrent.TimeUnit; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import com.bmk.crawler.processer.Processer1; import com.bmk.crawler.processer.Processer2; import com.bmk.crawler.processer.Processer3; /** * @Intro 抓取主程序 * @author Lee * @Date 2013-8-7 */ public class Crawler { /** * 处理程序:[大类:小类:分页] * 分三步走: * 第一级:抓取所有进入List页面的链接【进入当当图书:http://category.dangdang.com/all/?category_path=01.00.00.00.00.00】 * | * |解析分页连接,(左侧的图书分类) * | * 第二级:抓取所有List页面的连接 * | * |解析每一个书籍信息的list页面 * | * 第三集抓取详细页面的连接 * | * |解析每一个书籍详细信息 * | * 解析书籍信息 * @throws InterruptedException */ public static void process() throws InterruptedException{ Processer1.start(1); Processer2.start(1); Processer3.start(10); } public static void main(String[] args) throws IOException, InterruptedException { process(); } }