package guang.crawler.extension.urlExtractor;
import guang.crawler.commons.Page;
import guang.crawler.commons.WebURL;
import guang.crawler.commons.parserData.HtmlParseData;
import guang.crawler.commons.parserData.ParseData;
import java.util.List;
/**
* 默认抽取URL的类.当没有为该站点配置特别的抽取方式的时候,就使用该类,抽取静态页面中的所有URL.
*
* @author sun
*
*/
public class DefaultURLExtractor implements URLsExtractor {
@Override
public void extractURLs(final Page page) {
List<WebURL> urlList = page.getLinksToFollow();
ParseData data = page.getParseData();
if (data instanceof HtmlParseData) {
HtmlParseData htmlData = (HtmlParseData) data;
urlList.addAll(htmlData.getOutgoingUrls());
}
}
}