SinglePageCrawler.java example

Explorer

fpcms-master
- fpcms
  - dao
    - src
      - main
        generator
        template
        dao
        spring_jdbc
        src
        main
        java
        ${basepackage_dir}
        controller
        ${className}Controller.java
        dao
        ${className}Dao.java
        impl
        ${className}DaoImpl.java
        model
        ${className}.java
        query
        ${className}Query.java
        service
        ${className}Service.java
        impl
        ${className}ServiceImpl.java
        test
        java
        ${basepackage_dir}
        ${className}DataFactory.java
        dao
        impl
        ${className}DaoImplTest.java
        service
        impl
        ${className}ServiceImplTest.java
        java
        com
        fpcms
        common
        dao
        BaseSpringJdbcDao.java
        dao
        BlogExternalDao.java
        CmsAttachmentDao.java
        CmsChannelDao.java
        CmsContentDao.java
        CmsDomainDao.java
        CmsKeyValueDao.java
        CmsPropertyDao.java
        CmsSiteDao.java
        SysUserDao.java
        impl
        BlogExternalDaoImpl.java
        CmsAttachmentDaoImpl.java
        CmsChannelDaoImpl.java
        CmsContentDaoImpl.java
        CmsDomainDaoImpl.java
        CmsKeyValueDaoImpl.java
        CmsPropertyDaoImpl.java
        CmsSiteDaoImpl.java
        SysUserDaoImpl.java
        model
        BlogExternal.java
        BlogRpcApiEnum.java
        CmsAttachment.java
        CmsChannel.java
        CmsContent.java
        CmsDomain.java
        CmsKeyValue.java
        CmsProperty.java
        CmsSite.java
        CmsSitePropertyEnum.java
        SysUser.java
        query
        BlogExternalQuery.java
        CmsAttachmentQuery.java
        CmsChannelQuery.java
        CmsContentQuery.java
        CmsDomainQuery.java
        CmsKeyValueQuery.java
        CmsPropertyQuery.java
        CmsSiteQuery.java
        SysUserQuery.java
      - test
        java
        com
        fpcms
        BlogExternalDataFactory.java
        CmsAttachmentDataFactory.java
        CmsChannelDataFactory.java
        CmsContentDataFactory.java
        CmsDomainDataFactory.java
        CmsKeyValueDataFactory.java
        CmsPropertyDataFactory.java
        CmsSiteDataFactory.java
        SysUserDataFactory.java
        common
        base
        BaseDaoTestCase.java
        dao
        impl
        BlogExternalDaoImplTest.java
        CmsAttachmentDaoImplTest.java
        CmsChannelDaoImplTest.java
        CmsContentDaoImplTest.java
        CmsDomainDaoImplTest.java
        CmsKeyValueDaoImplTest.java
        CmsPropertyDaoImplTest.java
        CmsSiteDaoImplTest.java
        SysUserDaoImplTest.java
        model
        CmsChannelTest.java
        CmsContentTest.java
        tools
        SqlAutoWrapMain.java
        SqlGeneratorMain.java
        TableGeneratorMain.java
  - scheduler
    - src
      - main
        java
        com
        fpcms
        scheduled
        job
        ArticleCrawlJob.java
        AutoGeneratorNewsJob.java
        AutoPublishOuterBlogJob.java
        BaseCronJob.java
        CleanDatabaseJob.java
        DistributingArticles2SiteJob.java
        ReproducedBlog2ExternalJob.java
        UpdateCmsSiteJob.java
        UpdateSiteHttpStatusJob.java
        package-info.java
      - test
        java
        com
        fpcms
        scheduled
        job
        AutoGeneratorNewsJobTest.java
        AutoPublishOuterBlogJobTest.java
        DistributingArticles2SiteJobTest.java
  - service
    - src
      - main
        java
        com
        fpcms
        service
        BlogExternalService.java
        CmsAttachmentService.java
        CmsChannelService.java
        CmsContentService.java
        CmsDomainService.java
        CmsKeyValueService.java
        CmsPropertyService.java
        CmsSiteService.java
        SysUserService.java
        article_crawl
        ArticleCrawlService.java
        blog_post
        BlogPosterService.java
        impl
        BlogExternalServiceImpl.java
        CmsAttachmentServiceImpl.java
        CmsChannelServiceImpl.java
        CmsContentServiceImpl.java
        CmsDomainServiceImpl.java
        CmsKeyValueServiceImpl.java
        CmsPropertyServiceImpl.java
        CmsSiteServiceImpl.java
        SysUserServiceImpl.java
      - test
        java
        com
        fpcms
        BlogExternalDataFactory.java
        CmsAttachmentDataFactory.java
        CmsChannelDataFactory.java
        CmsContentDataFactory.java
        CmsDomainDataFactory.java
        CmsPropertyDataFactory.java
        CmsSiteDataFactory.java
        SysUserDataFactory.java
        common
        base
        BaseServiceTestCase.java
        service
        article_crawl
        ArticleCrawlServiceTest.java
        blog_post
        BlogPosterServiceTest.java
        impl
        BlogExternalServiceImplTest.java
        CmsAttachmentServiceImplTest.java
        CmsChannelServiceImplTest.java
        CmsContentServiceImplTest.java
        CmsDomainServiceImplTest.java
        CmsKeyValueServiceImplTest.java
        CmsPropertyServiceImplTest.java
        CmsSiteServiceImplTest.java
        DefaultChannelCreatorTest.java
        SysUserServiceImplTest.java
  - util
    - src
      - main
        java
        com
        fpcms
        common
        blog_post
        AccountBlogPosterDecorator.java
        BaseBlogPoster.java
        Blog.java
        BlogPoster.java
        BlogPosterHelper.java
        impl
        ChinaUnixBlogPoster.java
        CnblogBlogPoster.java
        ConfigableBlogPoster.java
        CustomTypeFactoryImpl.java
        DlDBlogPoster.java
        HexunBlogPoster.java
        MetaWeblogBlogPoster.java
        OschinaBlogPoster.java
        RenRenBlogPoster.java
        cache
        Cache.java
        CacheManager.java
        MapBackendCache.java
        ValueCallback.java
        message
        GlobalMessages.java
        pacakge-info.java
        random_gen_article
        ArticleContentProcesser.java
        BaiduTopBuzzUtil.java
        NaipanArticleGeneratorUtil.java
        RandomArticle.java
        RandomArticleBuilder.java
        SougoTopBuzzUtil.java
        util
        AbstractHttpInvokerRequestExecutor.java
        AppModeUtil.java
        ApplicationContextUtil.java
        BlogPingUtil.java
        BlogUtil.java
        ChineseSegmenterUtil.java
        CityUtil.java
        ClasspathUtil.java
        CollectionHelper.java
        Constants.java
        ConvertRegisterHelper.java
        DomainUtil.java
        EmptySearchResultException.java
        FreemarkerUtil.java
        GoogleTranslateUtil.java
        HtmlFormatUtil.java
        HtmlUtil.java
        HttpStatusCheckUtil.java
        IcibaTranslateUtil.java
        IpUtil.java
        JChineseConvertor.java
        JsoupSelectorUtil.java
        KeywordUtil.java
        MapUtil.java
        MetaWeblog.java
        MetaweblogPoster.java
        NetUtil.java
        PinyinUtil.java
        PropertyHelper.java
        RandomUtil.java
        RegexUtil.java
        SearchEngineUtil.java
        SimpleHttpInvokerRequestExecutor.java
        SimpleNetUtil.java
        SpringContext.java
        SpringMVCUtils.java
        StrSubstitutorUtil.java
        StringHelper.java
        StringLengthComparator.java
        Tags.java
        TextLangUtil.java
        ThreadUtil.java
        URLEncoderUtil.java
        URLUtil.java
        UnuseKeywordsUtil.java
        webcrawler
        ImageCrawler.java
        ImageCrawlerMain.java
        htmlparser
        HtmlPage.java
        HtmlPageCrawler.java
        HtmlPageTitleUtil.java
        SinglePageCrawler.java
      - test
        java
        com
        fpcms
        common
        blog_post
        impl
        ChinaUnixBlogPosterTest.java
        CnblogBlogPosterTest.java
        DlDBlogPosterTest.java
        HexunBlogPosterTest.java
        MetaWeblogBlogPosterTest.java
        OschinaBlogPostertTest.java
        cache
        MapBackendCacheTest.java
        random_gen_article
        ArticleContentProcesserTest.java
        BaiduTopBuzzUtilTest.java
        NaipanArticleGeneratorUtilTest.java
        RandomArticleBuilderTest.java
        selenium
        DLDSeleniumTest.java
        util
        BlogPingUtilTest.java
        BlogUtilTest.java
        ByteBufferHelper.java
        ChineseSegmenterUtilTest.java
        CityUtilTest.java
        DomainUtilTest.java
        DruidSqlParserTest.java
        FreemarkerUtilTest.java
        GoogleTranslateUtilTest.java
        HtmlFormatUtilTest.java
        HttpStatusCheckUtilTest.java
        IcibaTranslateUtilTest.java
        IpUtilTest.java
        JChineseConvertorTest.java
        KeywordUtilTest.java
        MapUtilTest.java
        MetaweblogPosterTest.java
        NetUtilTest.java
        PinYinUtilTest.java
        RandomUtilTest.java
        SearchEngineUtilTest.java
        StringHelperTest.java
        TagsTest.java
        TextLangUtilTest.java
        URLUtilTest.java
        UnuseKeywordsUtilTest.java
        webcrawler
        htmlparser
        HtmlPageTest.java
        HtmlPageTitleUtilTest.java
        SinglePageCrawlerTest.java
  - web-home
    - src
      - main
        java
        com
        fpcms
        admin
        controller
        BlogExternalController.java
        CmsAttachmentController.java
        CmsChannelController.java
        CmsContentController.java
        CmsDomainController.java
        CmsKeyValueController.java
        CmsPropertyController.java
        CmsSiteController.java
        CronController.java
        EchoController.java
        IndexController.java
        LoginController.java
        LogoutController.java
        SysUserController.java
        SystemController.java
        common
        BaseController.java
        springmvc
        interceptor
        SharedRenderVariableInterceptor.java
        util
        CmsSiteUtil.java
        RequestUtil.java
        SpiderUtil.java
        WebUtil.java
        web
        filter
        BaseIncludeExcludeFilter.java
        CmsSiteExistsFilter.java
        FlashQueryStringFilter.java
        GzipFilter.java
        LoggerMDCFilter.java
        RedirectLocation301Filter.java
        SecurityFilter.java
        StrSubstitutorFilter.java
        home
        controller
        ChannelController.java
        ContentController.java
        HomeController.java
        LayoutController.java
        MiscController.java
        MonitorController.java
        ProxyController.java
        RssController.java
        SitemapController.java
        webservice
        ImageWebService.java
        SiteWebService.java
        impl
        ImageWebServiceImpl.java
        SiteWebServiceImpl.java
      - test
        java
        com
        fpcms
        common
        util
        CmsSiteUtilTest.java
        FreemarkerTest.java
        SpiderUtilTest.java
        StringUtilsTest.java
        home
        webservice
        impl
        ImageWebServiceImplTest.java
        tools
        JettyServer.java

package com.fpcms.common.webcrawler.htmlparser;

import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.Collection;
import java.util.Collections;
import java.util.HashMap;
import java.util.HashSet;
import java.util.LinkedHashSet;
import java.util.List;
import java.util.Map;
import java.util.Set;

import org.apache.commons.lang.StringUtils;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.util.Assert;

import com.fpcms.common.util.CollectionHelper;
import com.fpcms.common.util.JsoupSelectorUtil;
import com.fpcms.common.util.JsoupSelectorUtil.JsoupElementParentsSizeComparator;
import com.fpcms.common.util.KeywordUtil;
import com.fpcms.common.util.NetUtil;
import com.fpcms.common.webcrawler.htmlparser.HtmlPage.Anchor;

public class SinglePageCrawler {
	
	private static Logger logger = LoggerFactory.getLogger(SinglePageCrawler.class);
	
	private String[] urlList;
	private String[] acceptUrlRegexList = new String[]{".*"};
	private String[] excludeUriRegexList;
	private String sourceLang; //TODO 自动识别语言
	private String[] mainContentSelector;
	private int minContentLength = 300;
	private boolean deleteUrlQueryString = true;
	
	/**
	 * 为文章打些标签
	 */
	private String tags;
	
	private HtmlPageCrawler htmlPageCrawler = new HtmlPageCrawler() {
		public boolean shoudVisitPage(Anchor a) {
			return true;
		}
		public void visit(HtmlPage page) {
		}
	};
	
	public SinglePageCrawler() {
	}
	
	public SinglePageCrawler(String... url) {
		super();
		setUrlList(url);
	}
	
	public void setHtmlPageCrawler(HtmlPageCrawler htmlPageCrawler) {
		Assert.notNull(htmlPageCrawler,"htmlPageCrawler must be not null");
		this.htmlPageCrawler = htmlPageCrawler;
	}

	public void setSourceLang(String sourceLang) {
		this.sourceLang = sourceLang;
	}

	public void setAcceptUrlRegexList(String... acceptUrlRegex) {
		this.acceptUrlRegexList = acceptUrlRegex;
	}
	
	public void setExcludeUriRegexList(String... excludeUriRegexList) {
		this.excludeUriRegexList = excludeUriRegexList;
	}

	public void setUrlList(String... url) {
		this.urlList = url;
	}
	
	public String[] getUrlList() {
		return urlList;
	}
	
	public String getTags() {
		return tags;
	}

	public void setTags(String tags) {
		this.tags = tags;
	}

	public void setMainContentSelector(String... mainContentSelector) {
		this.mainContentSelector = mainContentSelector;
	}
	
	public void setMinContentLength(int minContentLength) {
		this.minContentLength = minContentLength;
	}
	
	public boolean isDeleteUrlQueryString() {
		return deleteUrlQueryString;
	}

	public void setDeleteUrlQueryString(boolean deleteUrlQueryString) {
		this.deleteUrlQueryString = deleteUrlQueryString;
	}

	public void execute() {
		logger.info("start_execute_craw,sourceLang:"+sourceLang+" tags:"+tags+" minContentLength:"+minContentLength+" acceptUrlRegexList:"+StringUtils.join(acceptUrlRegexList,","));
		
		Set<Anchor> anchorSet = new HashSet<Anchor>();
		for(String url : urlList) {
			try {
				List<Anchor> shoudVisitAnchorList = getShoudVisitAnchorList(url);
				anchorSet.addAll(shoudVisitAnchorList);
			}catch(Exception e) {
				logger.error("error_on_crlaw_url:"+url,e);
			}
		}
		
		visitAnchorList(anchorSet);
	}

	public List<HtmlPage> crlawUrl(String url) {
		List<Anchor> shoudVisitAnchorList = getShoudVisitAnchorList(url);
		return visitAnchorList(shoudVisitAnchorList);
	}

	List<HtmlPage> visitAnchorList(Collection<Anchor> shoudVisitAnchorList) {
		List<HtmlPage> visitedPage = new ArrayList<HtmlPage>();
		for(Anchor a : shoudVisitAnchorList) {
			try {
				HtmlPage page = extractArticleByJsoup(a);
				if(page != null) {
					htmlPageCrawler.visit(page);
					visitedPage.add(page);
				}
			}catch(Exception e) {
				logger.warn("extractArticleByJsoup error",e);
			}
		}
		return visitedPage;
	}

	public List<Anchor> getShoudVisitAnchorList(String url) {
		String content = NetUtil.httpGet(url);
		Document doc = Jsoup.parse(content);
		Collection<Anchor> shoudVisitAnchorList = getShoudVisitAnchorList(url, doc);
		return new ArrayList<Anchor>(shoudVisitAnchorList);
	}
	
	private List<Anchor> getShoudVisitAnchorList(String url, Document doc) {
		LinkedHashSet<Anchor> allAnchorList = getAllAnchors(url, doc);
		return filterAnchorList(allAnchorList);
	}

	private List<Anchor> filterAnchorList(
			LinkedHashSet<Anchor> shoudVisitAnchorSet) {
		List<Anchor> result = new ArrayList<Anchor>();
		for(Anchor a : shoudVisitAnchorSet) {
			if(isAcceptUrl(a.getHref()) && htmlPageCrawler.shoudVisitPage(a)) {
				result.add(a);
			}else {
				logger.info("ignore_by_not_accept_url:{}",a.getHref());
			}
		}
		return result;
	}

	private LinkedHashSet<Anchor> getAllAnchors(String url, Document doc) {
		Elements elements = doc.getElementsByTag("a");
		
		LinkedHashSet<Anchor> result = new LinkedHashSet<Anchor>();
		for(Element anchor : elements) {
			String href = anchor.attr("href");
			String text = StringUtils.trim(anchor.text());
			String title = anchor.attr("title");
			Anchor a = new Anchor();
			String fullHref = Anchor.toFullUrl(url,href);
			fullHref = deleteUrlQueryString ? Anchor.removeQueryString(fullHref) : fullHref;
			a.setHref(fullHref);
			a.setText(text);
			a.setTitle(title);
			result.add(a);
		}
		return result;
	}

	HtmlPage extractArticleByJsoup(Anchor anchor) throws IOException {
		try {
			
			Connection conn = Jsoup.connect(anchor.getHref());
			conn.userAgent("Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)");
			conn.timeout(1000 * 6);
			Document doc = conn.get();
			logger.info("doc.baseUri:"+doc.baseUri() );
			
			String title = HtmlPageTitleUtil.smartGetTitle(anchor,doc.title());
			String keywords = JsoupSelectorUtil.select(doc.head(),"[name=keywords]").attr("content");
			String description = JsoupSelectorUtil.select(doc.head(),"[name=description]").attr("content");
			String mainContentSelectorContent = JsoupSelectorUtil.select(doc.body(),mainContentSelector).text();
			Element smartMainContent = smartGetMainContent(doc);
			
			HtmlPage page = new HtmlPage();
			page.setAnchor(anchor);
			page.setContent(StringUtils.defaultIfBlank(mainContentSelectorContent,smartMainContent == null ? null : smartMainContent.text()));
			page.setDescription(description);
			page.setKeywords(keywords);
			page.setTitle(title);
			page.setSourceLang(sourceLang);
			page.setTags(tags);
			
			//TODO 增加anchor.text 与 page.title的比较或者是替换
			logger.info("------------------- url:"+page.getAnchor().getHref()+" ---------------------------");
			logger.info("smartMainContent.text:" + (smartMainContent == null ? "NOT_FOUND" : smartMainContent.text()));
			logger.info("title:"+page.getTitle());
			logger.info("keywords:"+page.getKeywords());
			logger.info("description:"+page.getDescription());
			logger.info("content,size:"+ StringUtils.length(page.getContent()) +" "+page.getContent());
			logger.info("content.deepLevel:"+JsoupSelectorUtil.select(doc,mainContentSelector).parents().size());
			if(smartMainContent != null && StringUtils.isNotBlank(mainContentSelectorContent)) {
				if(!smartMainContent.text().equals(page.getContent())) {
					logger.warn("-------------------error: smart max length text != selector["+StringUtils.join(mainContentSelector,",")+"] text----------------------");
				}
			}
			
			if(StringUtils.length(page.getContent()) < minContentLength) {
				return null;
			}
			
			return page;
		}catch(Exception e) {
			throw new RuntimeException("error on extractArticleByJsoup anchor:"+anchor,e);
		}
	}
	
	private Element smartGetMainContent(Document doc) {
		List<Element> allDiv = JsoupSelectorUtil.selectList(doc,"div");
		Collections.sort(allDiv,new JsoupElementParentsSizeComparator());
		
		Map<Element,Float> elementScores = new HashMap<Element,Float>();
		for(Element element : allDiv) {
			float score = getPageElementScore(element);
			if(score >= 25) {
				elementScores.put(element, score);
			}
		}
		
		Element element = CollectionHelper.getMaxKeyByValue(elementScores);
		if(element != null) {
			logger.info("success_found_valid_content:"+element.tagName()+ " class:" + element.className() + " id:"+ element.id() +" score:"+getPageElementScore(element));
		}
		return element;
	}

	private float getPageElementScore(Element element) {
		int conditionSymbolesCount = minContentLength / 50;
		int commonSymbolesCount = KeywordUtil.getCommonSymbolsCount(element.text());
		int divCount = element.getElementsByTag("div").size();
		int parentsSize = element.parents().size();
		
		/*
		 * TODO 增加判断如果出现空格数过多的文字也属于垃圾特征,如: 首页 产品列表 关于我们 
		 * TODO 包含垃圾子段的父亲,也是垃圾
		 * TODO 
		 */
		int textLength = element.text().length();
		int anchorSize = element.getElementsByTag("a").size();
		int paragraphSize = element.getElementsByTag("p").size();
		float score = getPageElementScore(textLength,parentsSize,commonSymbolesCount,conditionSymbolesCount,divCount,anchorSize,paragraphSize);
		return score;
	}

	public float getPageElementScore(int textLength,int parentsSize,int commonSymbolesCount,int conditionSymbolesCount,int divCount,int anchorSize,int paragraphSize) {
		float score = 0;
		if(textLength >= minContentLength) {
			score += 10;
		}
		if(parentsSize >= 4) {
			score += 10;
		}
		if(commonSymbolesCount > conditionSymbolesCount) {
			score += 10;
			score += paragraphSize * 2.5;
		}
		
		score += parentsSize * 1.5;
		score += textLength / 700;
		
		score -= anchorSize;
		score -= divCount * 2;
		
		return score;
	}
	

	boolean isAcceptUrl(String href) {
		if(StringUtils.isBlank(href)) {
			return false;
		}
		
		try {
			new URL(href);
		} catch (MalformedURLException e) {
			return false;
		}
		
		if(excludeUriRegexList != null) {
			for(String exclude : excludeUriRegexList) {
				if(StringUtils.isNotBlank(exclude)) {
					if(href.matches(exclude)) {
						return false;
					}
				}
			}
		}
		
		if(acceptUrlRegexList != null) {
			for(String accept : acceptUrlRegexList) {
				if(StringUtils.isNotBlank(accept)) {
					if(href.matches(accept)) {
						return true;
					}
				}
			}
		}
		return false;
	}

}