ImageCrawler.java example

Explorer

fpcms-master
- fpcms
  - dao
    - src
      - main
        generator
        template
        dao
        spring_jdbc
        src
        main
        java
        ${basepackage_dir}
        controller
        ${className}Controller.java
        dao
        ${className}Dao.java
        impl
        ${className}DaoImpl.java
        model
        ${className}.java
        query
        ${className}Query.java
        service
        ${className}Service.java
        impl
        ${className}ServiceImpl.java
        test
        java
        ${basepackage_dir}
        ${className}DataFactory.java
        dao
        impl
        ${className}DaoImplTest.java
        service
        impl
        ${className}ServiceImplTest.java
        java
        com
        fpcms
        common
        dao
        BaseSpringJdbcDao.java
        dao
        BlogExternalDao.java
        CmsAttachmentDao.java
        CmsChannelDao.java
        CmsContentDao.java
        CmsDomainDao.java
        CmsKeyValueDao.java
        CmsPropertyDao.java
        CmsSiteDao.java
        SysUserDao.java
        impl
        BlogExternalDaoImpl.java
        CmsAttachmentDaoImpl.java
        CmsChannelDaoImpl.java
        CmsContentDaoImpl.java
        CmsDomainDaoImpl.java
        CmsKeyValueDaoImpl.java
        CmsPropertyDaoImpl.java
        CmsSiteDaoImpl.java
        SysUserDaoImpl.java
        model
        BlogExternal.java
        BlogRpcApiEnum.java
        CmsAttachment.java
        CmsChannel.java
        CmsContent.java
        CmsDomain.java
        CmsKeyValue.java
        CmsProperty.java
        CmsSite.java
        CmsSitePropertyEnum.java
        SysUser.java
        query
        BlogExternalQuery.java
        CmsAttachmentQuery.java
        CmsChannelQuery.java
        CmsContentQuery.java
        CmsDomainQuery.java
        CmsKeyValueQuery.java
        CmsPropertyQuery.java
        CmsSiteQuery.java
        SysUserQuery.java
      - test
        java
        com
        fpcms
        BlogExternalDataFactory.java
        CmsAttachmentDataFactory.java
        CmsChannelDataFactory.java
        CmsContentDataFactory.java
        CmsDomainDataFactory.java
        CmsKeyValueDataFactory.java
        CmsPropertyDataFactory.java
        CmsSiteDataFactory.java
        SysUserDataFactory.java
        common
        base
        BaseDaoTestCase.java
        dao
        impl
        BlogExternalDaoImplTest.java
        CmsAttachmentDaoImplTest.java
        CmsChannelDaoImplTest.java
        CmsContentDaoImplTest.java
        CmsDomainDaoImplTest.java
        CmsKeyValueDaoImplTest.java
        CmsPropertyDaoImplTest.java
        CmsSiteDaoImplTest.java
        SysUserDaoImplTest.java
        model
        CmsChannelTest.java
        CmsContentTest.java
        tools
        SqlAutoWrapMain.java
        SqlGeneratorMain.java
        TableGeneratorMain.java
  - scheduler
    - src
      - main
        java
        com
        fpcms
        scheduled
        job
        ArticleCrawlJob.java
        AutoGeneratorNewsJob.java
        AutoPublishOuterBlogJob.java
        BaseCronJob.java
        CleanDatabaseJob.java
        DistributingArticles2SiteJob.java
        ReproducedBlog2ExternalJob.java
        UpdateCmsSiteJob.java
        UpdateSiteHttpStatusJob.java
        package-info.java
      - test
        java
        com
        fpcms
        scheduled
        job
        AutoGeneratorNewsJobTest.java
        AutoPublishOuterBlogJobTest.java
        DistributingArticles2SiteJobTest.java
  - service
    - src
      - main
        java
        com
        fpcms
        service
        BlogExternalService.java
        CmsAttachmentService.java
        CmsChannelService.java
        CmsContentService.java
        CmsDomainService.java
        CmsKeyValueService.java
        CmsPropertyService.java
        CmsSiteService.java
        SysUserService.java
        article_crawl
        ArticleCrawlService.java
        blog_post
        BlogPosterService.java
        impl
        BlogExternalServiceImpl.java
        CmsAttachmentServiceImpl.java
        CmsChannelServiceImpl.java
        CmsContentServiceImpl.java
        CmsDomainServiceImpl.java
        CmsKeyValueServiceImpl.java
        CmsPropertyServiceImpl.java
        CmsSiteServiceImpl.java
        SysUserServiceImpl.java
      - test
        java
        com
        fpcms
        BlogExternalDataFactory.java
        CmsAttachmentDataFactory.java
        CmsChannelDataFactory.java
        CmsContentDataFactory.java
        CmsDomainDataFactory.java
        CmsPropertyDataFactory.java
        CmsSiteDataFactory.java
        SysUserDataFactory.java
        common
        base
        BaseServiceTestCase.java
        service
        article_crawl
        ArticleCrawlServiceTest.java
        blog_post
        BlogPosterServiceTest.java
        impl
        BlogExternalServiceImplTest.java
        CmsAttachmentServiceImplTest.java
        CmsChannelServiceImplTest.java
        CmsContentServiceImplTest.java
        CmsDomainServiceImplTest.java
        CmsKeyValueServiceImplTest.java
        CmsPropertyServiceImplTest.java
        CmsSiteServiceImplTest.java
        DefaultChannelCreatorTest.java
        SysUserServiceImplTest.java
  - util
    - src
      - main
        java
        com
        fpcms
        common
        blog_post
        AccountBlogPosterDecorator.java
        BaseBlogPoster.java
        Blog.java
        BlogPoster.java
        BlogPosterHelper.java
        impl
        ChinaUnixBlogPoster.java
        CnblogBlogPoster.java
        ConfigableBlogPoster.java
        CustomTypeFactoryImpl.java
        DlDBlogPoster.java
        HexunBlogPoster.java
        MetaWeblogBlogPoster.java
        OschinaBlogPoster.java
        RenRenBlogPoster.java
        cache
        Cache.java
        CacheManager.java
        MapBackendCache.java
        ValueCallback.java
        message
        GlobalMessages.java
        pacakge-info.java
        random_gen_article
        ArticleContentProcesser.java
        BaiduTopBuzzUtil.java
        NaipanArticleGeneratorUtil.java
        RandomArticle.java
        RandomArticleBuilder.java
        SougoTopBuzzUtil.java
        util
        AbstractHttpInvokerRequestExecutor.java
        AppModeUtil.java
        ApplicationContextUtil.java
        BlogPingUtil.java
        BlogUtil.java
        ChineseSegmenterUtil.java
        CityUtil.java
        ClasspathUtil.java
        CollectionHelper.java
        Constants.java
        ConvertRegisterHelper.java
        DomainUtil.java
        EmptySearchResultException.java
        FreemarkerUtil.java
        GoogleTranslateUtil.java
        HtmlFormatUtil.java
        HtmlUtil.java
        HttpStatusCheckUtil.java
        IcibaTranslateUtil.java
        IpUtil.java
        JChineseConvertor.java
        JsoupSelectorUtil.java
        KeywordUtil.java
        MapUtil.java
        MetaWeblog.java
        MetaweblogPoster.java
        NetUtil.java
        PinyinUtil.java
        PropertyHelper.java
        RandomUtil.java
        RegexUtil.java
        SearchEngineUtil.java
        SimpleHttpInvokerRequestExecutor.java
        SimpleNetUtil.java
        SpringContext.java
        SpringMVCUtils.java
        StrSubstitutorUtil.java
        StringHelper.java
        StringLengthComparator.java
        Tags.java
        TextLangUtil.java
        ThreadUtil.java
        URLEncoderUtil.java
        URLUtil.java
        UnuseKeywordsUtil.java
        webcrawler
        ImageCrawler.java
        ImageCrawlerMain.java
        htmlparser
        HtmlPage.java
        HtmlPageCrawler.java
        HtmlPageTitleUtil.java
        SinglePageCrawler.java
      - test
        java
        com
        fpcms
        common
        blog_post
        impl
        ChinaUnixBlogPosterTest.java
        CnblogBlogPosterTest.java
        DlDBlogPosterTest.java
        HexunBlogPosterTest.java
        MetaWeblogBlogPosterTest.java
        OschinaBlogPostertTest.java
        cache
        MapBackendCacheTest.java
        random_gen_article
        ArticleContentProcesserTest.java
        BaiduTopBuzzUtilTest.java
        NaipanArticleGeneratorUtilTest.java
        RandomArticleBuilderTest.java
        selenium
        DLDSeleniumTest.java
        util
        BlogPingUtilTest.java
        BlogUtilTest.java
        ByteBufferHelper.java
        ChineseSegmenterUtilTest.java
        CityUtilTest.java
        DomainUtilTest.java
        DruidSqlParserTest.java
        FreemarkerUtilTest.java
        GoogleTranslateUtilTest.java
        HtmlFormatUtilTest.java
        HttpStatusCheckUtilTest.java
        IcibaTranslateUtilTest.java
        IpUtilTest.java
        JChineseConvertorTest.java
        KeywordUtilTest.java
        MapUtilTest.java
        MetaweblogPosterTest.java
        NetUtilTest.java
        PinYinUtilTest.java
        RandomUtilTest.java
        SearchEngineUtilTest.java
        StringHelperTest.java
        TagsTest.java
        TextLangUtilTest.java
        URLUtilTest.java
        UnuseKeywordsUtilTest.java
        webcrawler
        htmlparser
        HtmlPageTest.java
        HtmlPageTitleUtilTest.java
        SinglePageCrawlerTest.java
  - web-home
    - src
      - main
        java
        com
        fpcms
        admin
        controller
        BlogExternalController.java
        CmsAttachmentController.java
        CmsChannelController.java
        CmsContentController.java
        CmsDomainController.java
        CmsKeyValueController.java
        CmsPropertyController.java
        CmsSiteController.java
        CronController.java
        EchoController.java
        IndexController.java
        LoginController.java
        LogoutController.java
        SysUserController.java
        SystemController.java
        common
        BaseController.java
        springmvc
        interceptor
        SharedRenderVariableInterceptor.java
        util
        CmsSiteUtil.java
        RequestUtil.java
        SpiderUtil.java
        WebUtil.java
        web
        filter
        BaseIncludeExcludeFilter.java
        CmsSiteExistsFilter.java
        FlashQueryStringFilter.java
        GzipFilter.java
        LoggerMDCFilter.java
        RedirectLocation301Filter.java
        SecurityFilter.java
        StrSubstitutorFilter.java
        home
        controller
        ChannelController.java
        ContentController.java
        HomeController.java
        LayoutController.java
        MiscController.java
        MonitorController.java
        ProxyController.java
        RssController.java
        SitemapController.java
        webservice
        ImageWebService.java
        SiteWebService.java
        impl
        ImageWebServiceImpl.java
        SiteWebServiceImpl.java
      - test
        java
        com
        fpcms
        common
        util
        CmsSiteUtilTest.java
        FreemarkerTest.java
        SpiderUtilTest.java
        StringUtilsTest.java
        home
        webservice
        impl
        ImageWebServiceImplTest.java
        tools
        JettyServer.java

package com.fpcms.common.webcrawler;

import java.awt.image.BufferedImage;
import java.io.ByteArrayInputStream;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintWriter;
import java.net.URL;
import java.util.Arrays;
import java.util.regex.Pattern;

import javax.imageio.ImageIO;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import edu.uci.ics.crawler4j.crawler.Page;
import edu.uci.ics.crawler4j.crawler.WebCrawler;
import edu.uci.ics.crawler4j.parser.BinaryParseData;
import edu.uci.ics.crawler4j.url.WebURL;

/**
 * @author Yasser Ganjisaffar <lastname at gmail dot com>
 */

/*
 * This class shows how you can crawl images on the web and store them in a
 * folder. This is just for demonstration purposes and doesn't scale for large
 * number of images. For crawling millions of images you would need to store
 * downloaded images in a hierarchy of folders
 */
public class ImageCrawler extends WebCrawler {

	private static final Pattern filters = Pattern
			.compile(".*(\\.(css|js|mid|mp2|mp3|mp4|wav|avi|mov|mpeg|ram|m4v|pdf"
					+ "|rm|smil|wmv|swf|wma|zip|rar|gz))$");

	private static final Pattern imgPatterns = Pattern
			.compile(".*(\\.(gif|jpe?g|png?))$");

	private static File storageFolder;
	private static String[] crawlDomains;
	private static Logger logger = LoggerFactory.getLogger(ImageCrawler.class);
	private static PrintWriter storedImagesUrl = new PrintWriter(getF‎ileWriter(),true);

	private static FileWriter getF‎ileWriter()  {
		try {
			return new FileWriter("/tmp/storedImagesUrl.txt",true);
		} catch (IOException e) {
			throw new RuntimeException(e);
		}
	}
	
	public static void configure(String[] crawlDomains, String storageFolderName) {
		System.out.println("ImageCrawler.configure,crawlDomains:"+Arrays.toString(crawlDomains));
		ImageCrawler.crawlDomains = crawlDomains;

		storageFolder = new File(storageFolderName);
		if (!storageFolder.exists()) {
			storageFolder.mkdirs();
		}
	}

	@Override
	public boolean shouldVisit(WebURL url) {
		String href = url.getURL().toLowerCase();
		if (filters.matcher(href).matches()) {
			return false;
		}

		if (imgPatterns.matcher(href).matches()) {
			return true;
		}
		for (String domain : crawlDomains) {
			if (href.startsWith(domain)) {
//				logger.debug("shouldVisit() url:{}",url);
				return true;
			}
		}
		return false;
	}

	@Override
	public void visit(Page page) {
		String url = page.getWebURL().getURL();
//		logger.debug("visit(Page) url:{}",url);
		// We are only interested in processing images
		if (!(page.getParseData() instanceof BinaryParseData)) {
			return;
		}

		if (!imgPatterns.matcher(url).matches()) {
			return;
		}

		// Not interested in very small images
		if (page.getContentData().length < 45 * 1024) {
			return;
		}
	
		// get a unique name for storing this image
		String extension = url.substring(url.lastIndexOf("."));
		try {
			BufferedImage image = ImageIO.read(new ByteArrayInputStream(page.getContentData()));
			int width = image.getWidth();
			int height = image.getHeight();
			if(width > 500 || height > 500) {
				String hashedName = new URL(url).getFile() + extension;
				// store image
				// IO.writeBytesToFile(page.getContentData(),
				// storageFolder.getAbsolutePath() + "/" + hashedName);
				System.out.println("Stored: " + url+" width:"+width+" height:"+height);
				storedImagesUrl.println(url);
			}
		} catch (Exception e) {
			throw new RuntimeException(e);
		}
	}
}