package guang.crawler.commons.parserData; import guang.crawler.commons.WebURL; import java.util.List; /** * 如果解析得到的数据类型是HTML,那么使用这种数据类型 * * @author yang */ public class HtmlParseData implements ParseData { /** * HTML页面字符串 */ private String html; /** * 当前页面的标题 */ private String title; /** * 当前页面中去除各种标签之后的文字信息 */ private String text; /** * 当前静态页面中抽取的URL列表 */ private List<WebURL> outgoingUrls; /** * 获取HTML字符串 * * @return */ public String getHtml() { return this.html; } /** * 获取从html页面静态内容中抽取的URL列表. * * @return */ public List<WebURL> getOutgoingUrls() { return this.outgoingUrls; } /** * 获取html页面中去除了标签等信息之后的纯文本信息. * * @return */ public String getText() { return this.text; } /** * 获取当前html页面的标题. * * @return */ public String getTitle() { return this.title; } /** * 设置html字符串. * * @param html */ public void setHtml(final String html) { this.html = html; } /** * 设置从当前页面中抽取的静态URL列表. * * @param outgoingUrls */ public void setOutgoingUrls(final List<WebURL> outgoingUrls) { this.outgoingUrls = outgoingUrls; } /** * 设置当前页面中去除了标签之后的纯文本信息. * * @param text */ public void setText(final String text) { this.text = text; } /** * 设置当前页面的标题 * * @param title */ public void setTitle(final String title) { this.title = title; } @Override public String toString() { return this.html; } }