Parser.java example

Explorer

DistributedCrawler-master
- crawler-commons
  - src
    - main
      - java
        guang
        crawler
        centerConfig
        CenterConfig.java
        CenterConfigElement.java
        controller
        ControllerConfigInfo.java
        ControllerManagerInfo.java
        ControllerServicesInfo.java
        siteManagers
        OnlineSiteManagers.java
        SiteManagerInfo.java
        SiteManagersConfigInfo.java
        sitesConfig
        SiteInfo.java
        SitesConfigInfo.java
        SitesInfo.java
        workers
        OnlineWorkers.java
        WorkerInfo.java
        WorkersConfigInfo.java
        commons
        DataField.java
        DataFields.java
        GenericState.java
        Page.java
        WebURL.java
        parserData
        BinaryParseData.java
        HtmlParseData.java
        ParseData.java
        TextParseData.java
        service
        SiteManagerService.java
        SiteStatus.java
        WebGatherNodeBean.java
        connector
        JSONServerConnector.java
        WebDataTableConnector.java
        ZookeeperConnector.java
        jsonServer
        AcceptJsonServer.java
        AcceptRequestHandler.java
        AcceptThreadController.java
        Commandlet.java
        DataPacket.java
        JsonServer.java
        ServerStartException.java
        localConfig
        ComponentLoader.java
        LocalConfig.java
        util
        NetworkHelper.java
        PathHelper.java
        PropertiesHelper.java
        StreamHelper.java
- crawler-controller
  - src
    - main
      - java
        guang
        crawler
        controller
        ControllerConfig.java
        ControllerManagerWatcher.java
        ControllerWorkThread.java
        CrawlerController.java
        CrawlerControllerMain.java
        webservice
        Client.java
        SiteManagerServiceImp.java
        WebServiceDaemon.java
- crawler-extension
  - src
    - main
      - java
        guang
        crawler
        extension
        filedExtractor
        DefaultFieldExtractor.java
        FieldsExtractor.java
        qq
        QQCommentCountFieldsExtractor.java
        QQCommentFieldsExtractor.java
        urlExtractor
        DefaultURLExtractor.java
        JSONParser.java
        URLsExtractor.java
        qq
        QQNewsCommentURLsExtractor.java
        QQNewsURLsExtractor.java
- crawler-launcher
  - src
    - main
      - java
        guang
        crawler
        launcher
        CrawlerLauncher.java
        CrawlerLauncherMain.java
        LauncherConfig.java
        Test.java
- crawler-site-manager
  - src
    - main
      - java
        guang
        crawler
        siteManager
        SiteConfig.java
        SiteManager.java
        SiteManagerException.java
        SiteManagerMain.java
        TestSiteManagerMain.java
        commandlet
        StatisticsGetter.java
        URLsGetter.java
        URLsPutter.java
        daemon
        QueueCleannerDaemon.java
        SiteBackupDaemon.java
        SiteManagerWatcherDaemon.java
        docid
        DocidServer.java
        MD5UrlDocidServer.java
        SimpleIncretmentDocidServer.java
        jobQueue
        JECursorIterator.java
        JEQueue.java
        JEQueueElementTransfer.java
        MapQueue.java
        MapQueueIterator.java
        Sync.java
        WebURLTransfer.java
        urlFilter
        BitMapFilter.java
        ObjectFilter.java
        util
        IOHelper.java
        Util.java
- crawler-statistics
  - src
    - main
      - java
        guang
        crawler
        statistics
        StatisticsConfig.java
        StatisticsGetter.java
- crawler-worker
  - src
    - main
      - java
        guang
        crawler
        crawlWorker
        CrawlerWorker.java
        CrawlerWorkerMain.java
        WorkerConfig.java
        daemon
        SiteManagerConnectorManager.java
        fetcher
        CustomFetchStatus.java
        IdleConnectionMonitorThread.java
        PageFetchResult.java
        PageFetcher.java
        pageProcessor
        ConfigLoadException.java
        DownloadPlugin.java
        ExtractDataToSavePlugin.java
        ExtractLinksToFollowPlugin.java
        PageProcessor.java
        SaveExtractedDataPlugin.java
        UploadExtractedLinksPlugin.java
        parser
        ExtractedUrlAnchorPair.java
        HtmlContentHandler.java
        Parser.java
        url
        TLDList.java
        URLCanonicalizer.java
        UrlResolver.java
        util
        IO.java
        LinkElement.java
        Util.java
    - test
      - java
        guang
        crawler
        crawlWorker
        EchoCommentURLPlugin.java
        TestDownloadIfeng.java
- extenerProjects
  - src
    - main
      - java
        com
        gzgb
        epo
        webservice
        Main.java

package guang.crawler.crawlWorker.parser;

import guang.crawler.commons.Page;
import guang.crawler.commons.WebURL;
import guang.crawler.commons.parserData.BinaryParseData;
import guang.crawler.commons.parserData.HtmlParseData;
import guang.crawler.commons.parserData.TextParseData;
import guang.crawler.crawlWorker.WorkerConfig;
import guang.crawler.crawlWorker.url.URLCanonicalizer;
import guang.crawler.crawlWorker.util.Util;

import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.UnsupportedEncodingException;
import java.util.ArrayList;
import java.util.List;

import org.apache.log4j.Logger;
import org.apache.tika.metadata.DublinCore;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.html.HtmlParser;

/**
 * 解析器,用来对下载的页面进行解析
 *
 * @author sun
 *
 */
public class Parser {
	
	protected static final Logger	logger	= Logger.getLogger(Parser.class.getName());
	/**
	 * HTML页面的解析器
	 */
	private HtmlParser	          htmlParser;
	/**
	 * 解析上下文
	 */
	private ParseContext	      parseContext;
	
	public Parser() {
		this.htmlParser = new HtmlParser();
		this.parseContext = new ParseContext();
	}
	
	/**
	 * 对页面进行解析
	 *
	 * @param page
	 * @param contextURL
	 * @return
	 */
	public boolean parse(final Page page, final String contextURL) {
		
		// 如果页面中含有二进制页面内容.
		if (Util.hasBinaryContent(page.getContentType())) {
			if (!WorkerConfig.me()
			                 .isIncludeBinaryContentInCrawling()) {
				return false;
			}
			
			page.setParseData(BinaryParseData.getInstance());
			return true;
			
		}
		// 如果页面中含有文本内容(txt,javascript,css)
		else if (Util.hasPlainTextContent(page.getContentType())) { // 如果只是一般的文本，而不是HTML页面，那么就没有什么好处理的了
			try {
				TextParseData parseData = new TextParseData();
				if (page.getContentCharset() == null) {
					parseData.setTextContent(new String(page.getContentData()));
				} else {
					parseData.setTextContent(new String(page.getContentData(),
					        page.getContentCharset()));
				}
				page.setParseData(parseData);
				return true;
			} catch (Exception e) {
				Parser.logger.error(e.getMessage() + ", while parsing: "
				        + page.getWebURL()
				              .getURL());
			}
			return false;
		} else { // 否则,其他类型都被算作HTML页面类型
			// 将其当作HTML页面进行解析
			Metadata metadata = new Metadata();
			HtmlContentHandler contentHandler = new HtmlContentHandler();
			InputStream inputStream = null;
			try {
				inputStream = new ByteArrayInputStream(page.getContentData());
				this.htmlParser.parse(inputStream, contentHandler, metadata,
				                      this.parseContext);
			} catch (Exception e) {
				Parser.logger.error(e.getMessage() + ", while parsing: "
				        + page.getWebURL()
				              .getURL());
			} finally {
				try {
					if (inputStream != null) {
						inputStream.close();
					}
				} catch (IOException e) {
					Parser.logger.error(e.getMessage() + ", while parsing: "
					        + page.getWebURL()
					              .getURL());
				}
			}
			// 将解析的结果设置到HtmlParseData以及Page中
			if (page.getContentCharset() == null) {
				page.setContentCharset(metadata.get("Content-Encoding"));
			}
			
			HtmlParseData parseData = new HtmlParseData();
			parseData.setText(contentHandler.getBodyText()
			                                .trim());
			parseData.setTitle(metadata.get(DublinCore.TITLE));
			// 处理获取的URL连接
			List<WebURL> outgoingUrls = this.parseURLs(contextURL,
			                                           contentHandler);
			parseData.setOutgoingUrls(outgoingUrls);
			
			try {
				if (page.getContentCharset() == null) {
					parseData.setHtml(new String(page.getContentData()));
				} else {
					parseData.setHtml(new String(page.getContentData(),
					        page.getContentCharset()));
				}
			} catch (UnsupportedEncodingException e) {
				e.printStackTrace();
				return false;
			}
			
			page.setParseData(parseData);
			return true;
		}
		
	}

	/**
	 * 对URL进行解析,根据页面的<base>的设置,确定那些相对URL的路径.
	 * 
	 * @param contextURL
	 * @param contentHandler
	 * @return
	 */
	private List<WebURL> parseURLs(String contextURL,
	        final HtmlContentHandler contentHandler) {
		List<WebURL> outgoingUrls = new ArrayList<WebURL>();
		String baseURL = contentHandler.getBaseUrl();
		if (baseURL != null) {
			contextURL = baseURL;
		}

		int urlCount = 0;
		for (ExtractedUrlAnchorPair urlAnchorPair : contentHandler.getOutgoingUrls()) {
			String href = urlAnchorPair.getHref();
			href = href.trim();
			if (href.length() == 0) {
				continue;
			}
			String hrefWithoutProtocol = href.toLowerCase();
			if (href.startsWith("http://")) {
				hrefWithoutProtocol = href.substring(7);
			}
			if (!hrefWithoutProtocol.contains("javascript:")
			        && !hrefWithoutProtocol.contains("mailto:")
			        && !hrefWithoutProtocol.contains("@")) {
				String url = URLCanonicalizer.getCanonicalURL(href, contextURL);
				if (url != null) {
					WebURL webURL = WebURL.newWebURL()
					                      .setURL(url)
					                      .setAnchor(urlAnchorPair.getAnchor());
					outgoingUrls.add(webURL);
					urlCount++;
					if (urlCount > WorkerConfig.me()
					                           .getMaxOutgoingLinksToFollow()) {
						break;
					}
				}
			}
		}
		return outgoingUrls;
	}
	
}