/*
* Overchan Android (Meta Imageboard Client)
* Copyright (C) 2014-2016 miku-nyan <https://github.com/miku-nyan>
*
* This program is free software: you can redistribute it and/or modify
* it under the terms of the GNU General Public License as published by
* the Free Software Foundation, either version 3 of the License, or
* (at your option) any later version.
*
* This program is distributed in the hope that it will be useful,
* but WITHOUT ANY WARRANTY; without even the implied warranty of
* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
* GNU General Public License for more details.
*
* You should have received a copy of the GNU General Public License
* along with this program. If not, see <http://www.gnu.org/licenses/>.
*/
package nya.miku.wishmaster.api.util;
import java.io.BufferedReader;
import java.io.Closeable;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.Reader;
import java.text.DateFormat;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.List;
import java.util.Locale;
import java.util.TimeZone;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.apache.commons.lang3.StringEscapeUtils;
import android.graphics.Color;
import nya.miku.wishmaster.api.models.AttachmentModel;
import nya.miku.wishmaster.api.models.PostModel;
import nya.miku.wishmaster.api.models.ThreadModel;
import nya.miku.wishmaster.common.Logger;
/**
* Поточный парсер HTML-страниц основанных на вакабе имиджборд (или с аналогичной структурой).<br>
* Для тонкой настройки под конкретную борды, можно наследоваться от этого класса и переопределить необходимые protected-методы.<br>
* Примечание. Методы данного класса не потокобезопасны.
* @author miku-nyan
*
*/
public class WakabaReader implements Closeable {
private static final String TAG = "WakabaReader";
private static final class DateFormatHolder {
private static final DateFormat DEFAULT_WAKABA_DATEFORMAT;
static {
DEFAULT_WAKABA_DATEFORMAT = new SimpleDateFormat("yy/MM/dd(EEE)HH:mm", Locale.US);
DEFAULT_WAKABA_DATEFORMAT.setTimeZone(TimeZone.getTimeZone("UTC"));
}
}
private static final Pattern EMAIL_PATTERN = Pattern.compile("<a[^>]*href=\"([^\"]*)\"[^>]*>(.*)</a>", Pattern.DOTALL);
private static final Pattern ATTACHMENT_SIZE_PATTERN =
Pattern.compile("([,\\.\\d]+) ?([кkмm])?i?[бb]", Pattern.CASE_INSENSITIVE | Pattern.UNICODE_CASE);
private static final Pattern ATTACHMENT_PX_SIZE_PATTERN = Pattern.compile("(\\d+)[x×х](\\d+)"); // \u0078 \u00D7 \u0445
private static final Pattern ATTACHMENT_ORIGINAL_NAME_PATTERN = Pattern.compile("\\s*,?([^<\\)]*)");
private static final char[] DATA_START = "<form id=\"delform\"".toCharArray();
private static final char[] BLOCKQUOTE_OPEN = "<blockquote".toCharArray();
private static final char[] BLOCKQUOTE_CLOSE = "</blockquote>".toCharArray();
private static final int FILTER_PAGE_END = 0;
private static final int FILTER_THREAD_END = 1;
private static final int FILTER_ATTACHMENT = 2;
private static final int FILTER_ATTACHMENT_THUMBNAIL = 3;
private static final int FILTER_POSTNUMBER = 4;
private static final int FILTER_SUBJECT_OP = 5;
private static final int FILTER_SUBJECT = 6;
private static final int FILTER_POSTERNAME_OP = 7;
private static final int FILTER_POSTERNAME = 8;
private static final int FILTER_TRIPCODE = 9;
private static final int FILTER_ENDDATE = 10;
private static final int FILTER_OMITTEDPOSTS = 11;
private static final int FILTER_START_COMMENT = 12;
//ни для каких двух фильтров (открывающих) префикс одного не должен совпадать с суффиксом другого
/** только эти фильтры обрабатываются по умолчанию */
public static final char[][] FILTERS_OPEN = {
"</form>".toCharArray(),
"<hr".toCharArray(),
"<span class=\"filesize\">".toCharArray(),
"<img".toCharArray(),
"<a name=\"".toCharArray(),
"<span class=\"filetitle\">".toCharArray(),
"<span class=\"replytitle\">".toCharArray(),
"<span class=\"postername\">".toCharArray(),
"<span class=\"commentpostername\">".toCharArray(),
"<span class=\"postertrip\">".toCharArray(),
"</label>".toCharArray(),
"<span class=\"omittedposts\">".toCharArray(),
"<blockquote".toCharArray()
};
private static final char[][] FILTERS_CLOSE = {
null,
null,
"</span>".toCharArray(),
">".toCharArray(),
"\"".toCharArray(),
"</span>".toCharArray(),
"</span>".toCharArray(),
"</span>".toCharArray(),
"</span>".toCharArray(),
"</span>".toCharArray(),
null,
"</span>".toCharArray(),
">".toCharArray()
};
protected final Reader _in;
protected final DateFormat dateFormat;
protected final boolean canCloudflare;
private StringBuilder readBuffer = new StringBuilder();
private List<ThreadModel> threads;
/** Тред, который читается в данный момент.<br>
* При обработке данных не записывайте ничего в поле {@link ThreadModel#posts}: массив формируется (будет перезаписан) в конце чтения треда.
* Вместо этого, данные о посте следует записывать в {@link #currentPost} и {@link #currentAttachments}. */
protected ThreadModel currentThread;
private List<PostModel> postsBuf;
/** Пост, который читается в данный момент.<br>
* При обработке данных не записывайте ничего в поле {@link PostModel#attachments}: массив будет перезаписан в конце чтения поста.
* Вместо этого, вложения следует записывать в список {@link #currentAttachments}. */
protected PostModel currentPost;
private boolean inDate;
private StringBuilder dateBuffer = new StringBuilder();
private StringBuilder commentBuffer = new StringBuilder();
private StringBuilder omittedDigitsBuffer = new StringBuilder();
/** Список вложений для поста, который читается в данный момент.<br>
* В конце чтения поста будет записан как массив в {@link PostModel#attachments} */
protected List<AttachmentModel> currentAttachments;
public WakabaReader(Reader reader, DateFormat dateFormat, boolean canCloudflare) {
_in = reader;
this.canCloudflare = canCloudflare;
this.dateFormat = dateFormat != null ? dateFormat : DateFormatHolder.DEFAULT_WAKABA_DATEFORMAT;
}
public WakabaReader(Reader reader, DateFormat dateFormat) {
this(reader, dateFormat, false);
}
public WakabaReader(Reader reader) {
this(reader, null);
}
public WakabaReader(InputStream in, DateFormat dateFormat, boolean canCloudflare) {
this(new BufferedReader(new InputStreamReader(in)), dateFormat, canCloudflare);
}
public WakabaReader(InputStream in, DateFormat dateFormat) {
this(in, dateFormat, false);
}
public WakabaReader(InputStream in) {
this(in, null);
}
private void initThreadModel() {
currentThread = new ThreadModel();
currentThread.postsCount = 0;
currentThread.attachmentsCount = 0;
postsBuf = new ArrayList<PostModel>();
}
private void initPostModel() {
currentPost = new PostModel();
currentAttachments = new ArrayList<AttachmentModel>();
inDate = false;
dateBuffer.setLength(0);
}
/**
* Завершить чтение текущего треда (последующие прочитанные сообщения будут добавляться в новый тред)
*/
protected final void finalizeThread() {
if (postsBuf.size() > 0) {
currentThread.posts = postsBuf.toArray(new PostModel[postsBuf.size()]);
currentThread.threadNumber = currentThread.posts[0].number;
for (PostModel post : currentThread.posts) post.parentThread = currentThread.threadNumber;
threads.add(currentThread);
initThreadModel();
}
}
/**
* Завершить чтение текущего поста
*/
protected final void finalizePost() {
if (currentPost.number != null && currentPost.number.length() > 0) {
++currentThread.postsCount;
currentPost.attachments = currentAttachments.toArray(new AttachmentModel[currentAttachments.size()]);
if (currentPost.name == null) currentPost.name = "";
if (currentPost.subject == null) currentPost.subject = "";
if (currentPost.comment == null) currentPost.comment = "";
if (currentPost.email == null) currentPost.email = "";
if (currentPost.trip == null) currentPost.trip = "";
if (canCloudflare) {
currentPost.comment = CryptoUtils.fixCloudflareEmails(currentPost.comment);
currentPost.subject = CryptoUtils.fixCloudflareEmails(currentPost.subject);
if (currentPost.email.startsWith("/cdn-cgi/l/email-protection#"))
currentPost.email = CryptoUtils.decodeCloudflareEmail(currentPost.email.substring(28));
}
postprocessPost(currentPost);
postsBuf.add(currentPost);
}
initPostModel();
}
/**
* Метод для переопределения, вызывается, когда чтение поста завершено (и вся обработка данным классом).<br>
* Может использоваться, чтобы произвести какую-либо дополнительную постобработку, в зависимости от имиджборды.<br>
* Эта реализация не делает ничего (пустой метод).
*/
protected void postprocessPost(PostModel post) {}
public ThreadModel[] readWakabaPage() throws IOException {
threads = new ArrayList<ThreadModel>();
initThreadModel();
initPostModel();
skipUntilSequence(DATA_START);
readData();
return threads.toArray(new ThreadModel[threads.size()]);
}
private void readData() throws IOException {
int filtersCount = FILTERS_OPEN.length;
int[] pos = new int[filtersCount];
int[] len = new int[filtersCount];
for (int i=0; i<filtersCount; ++i) len[i] = FILTERS_OPEN[i].length;
int curChar;
while ((curChar = _in.read()) != -1) {
if (inDate) dateBuffer.append((char) curChar);
for (int i=0; i<filtersCount; ++i) {
if (curChar == FILTERS_OPEN[i][pos[i]]) {
++pos[i];
if (pos[i] == len[i]) {
if (i == FILTER_PAGE_END) {
finalizeThread();
return;
}
handleFilter(i);
pos[i] = 0;
}
} else {
if (pos[i] != 0) pos[i] = curChar == FILTERS_OPEN[i][0] ? 1 : 0;
}
}
customFilters(curChar);
}
finalizeThread();
}
/**
* Если требуется обрабатывать дополнительные фильтры (не заданные в этом классе), можно переопределить этот метод.
* Он вызывается каждый раз, когда читается один символ, пока парсер ищет очередной фильтр.<br>
* Когда нужная последовательность прочитана, для дальнейшего чтения можно использовать Reader напрямую ({@link #_in}),
* или методы {@link #readUntilSequence(char[])} и {@link #skipUntilSequence(char[])}.<br>
* Обрабаботанные данные можно сохранять в {@link #currentPost}, {@link #currentAttachments} и {@link #currentThread}.<br>
* См. также пример {@link nya.miku.wishmaster.chans.cirno.Chan410IntReader}, который читает также значок флага страны
* (в том виде, как он реализован на борде 410chan.org/int)<br>
* Также, при реализации своих фильтров необходимо учитывать, что из всего множества фильтров ({@link #FILTERS_OPEN} этого класса и создаваемых)
* ни для каких двух префикс одного не должен совпадать с постфиксом другого.<br>
* Эта реализация не делает ничего (пустой метод).
*/
protected void customFilters(int ch) throws IOException {}
private void handleFilter(int filterIndex) throws IOException {
if (inDate && filterIndex != FILTER_ENDDATE) dateBuffer.setLength(0);
switch (filterIndex) {
case FILTER_THREAD_END:
finalizeThread();
break;
case FILTER_ATTACHMENT:
parseAttachment(readUntilSequence(FILTERS_CLOSE[filterIndex]));
break;
case FILTER_ATTACHMENT_THUMBNAIL:
parseThumbnail(readUntilSequence(FILTERS_CLOSE[filterIndex]));
break;
case FILTER_POSTNUMBER:
currentPost.number = readUntilSequence(FILTERS_CLOSE[filterIndex]).trim();
break;
case FILTER_SUBJECT_OP:
case FILTER_SUBJECT:
currentPost.subject = StringEscapeUtils.unescapeHtml4(readUntilSequence(FILTERS_CLOSE[filterIndex])).trim();
break;
case FILTER_POSTERNAME_OP:
case FILTER_POSTERNAME:
parseNameEmail(readUntilSequence(FILTERS_CLOSE[filterIndex]));
inDate = true;
break;
case FILTER_TRIPCODE:
currentPost.trip = StringEscapeUtils.unescapeHtml4(RegexUtils.removeHtmlTags(readUntilSequence(FILTERS_CLOSE[filterIndex]))).trim();
inDate = true;
break;
case FILTER_ENDDATE:
if (dateBuffer.length() > FILTERS_OPEN[FILTER_ENDDATE].length) {
String date = dateBuffer.substring(0, dateBuffer.length() - FILTERS_OPEN[FILTER_ENDDATE].length).trim();
parseDate(date);
}
inDate = false;
dateBuffer.setLength(0);
break;
case FILTER_OMITTEDPOSTS:
parseOmittedString(readUntilSequence(FILTERS_CLOSE[filterIndex]));
break;
case FILTER_START_COMMENT:
skipUntilSequence(FILTERS_CLOSE[filterIndex]);
currentPost.comment = readPostComment();
finalizePost();
break;
}
}
/**
* Метод для чтения комментария поста, вызывается после того, как был прочитан тэг <blockquote>.<br>
* В этой реализации просто читаются и сохраняются все символы до того, как встретится соответствующий закрывающий </blockquote>
* (с учётом того, что могут быть вложенные тэги blockquote).
* @return комментарий поста в виде HTML (в соответствии с описанием {@link PostModel#comment})
*/
protected String readPostComment() throws IOException {
commentBuffer.setLength(0);
int len1 = BLOCKQUOTE_OPEN.length;
int len2 = BLOCKQUOTE_CLOSE.length;
int pos1 = 0;
int pos2 = 0;
int tagCounter = 1;
int curChar;
while ((curChar = _in.read()) != -1) {
commentBuffer.append((char) curChar);
if (curChar == BLOCKQUOTE_OPEN[pos1]) {
++pos1;
if (pos1 == len1) {
++tagCounter;
pos1 = 0;
}
} else {
if (pos1 != 0) pos1 = curChar == BLOCKQUOTE_OPEN[0] ? 1 : 0;
}
if (curChar == BLOCKQUOTE_CLOSE[pos2]) {
++pos2;
if (pos2 == len2) {
--tagCounter;
if (tagCounter == 0) break;
pos2 = 0;
}
} else {
if (pos2 != 0) pos2 = curChar == BLOCKQUOTE_CLOSE[0] ? 1 : 0;
}
}
int buflen = commentBuffer.length();
if (buflen > len2) {
commentBuffer.setLength(buflen - len2);
return commentBuffer.toString();
} else {
return "";
}
}
/**
* Метод для парсинга строки "omitted posts" (сколько постов и вложений в треде пропущено при просмотре списка тредов),
* прибавляет значения к полям {@link #currentThread}: {@link ThreadModel#postsCount} и {@link ThreadModel#attachmentsCount}.<br>
* Эта реализация ищет первое и последнее десятичное целое число: первое рассматривается как число постов, последнее как число вложений.
* Если найдено только одно число, оно рассматривается как число постов, число вложений считается равным нулю.
* @param omitted строка вида "20 posts and 4 images omitted. Click Reply to view.", в зависимости от имиджборды
*/
protected void parseOmittedString(String omitted) {
int postsOmitted = -1;
int filesOmitted = -1;
try {
int len = omitted.length();
for (int i=0; i<=len; ++i) {
char ch = i == len ? ' ' : omitted.charAt(i);
if (ch >= '0' && ch <= '9') {
omittedDigitsBuffer.append(ch);
} else {
if (omittedDigitsBuffer.length() > 0) {
int parsedValue = Integer.parseInt(omittedDigitsBuffer.toString());
omittedDigitsBuffer.setLength(0);
if (postsOmitted == -1) postsOmitted = parsedValue;
else filesOmitted = parsedValue;
}
}
}
} catch (NumberFormatException e) {}
if (postsOmitted > 0) currentThread.postsCount += postsOmitted;
if (filesOmitted > 0) currentThread.attachmentsCount += filesOmitted;
}
/**
* Метод для парсинга информации о вложении, принимает HTML-строку, содержимое тэга <span class="filesize">.
* Если получен корректрый результат, вложение нужно добавить к списку {@link #currentAttachments}
* и увеличивается значение {link {@link ThreadModel#attachmentsCount}) объекта {@link #currentThread}.<br>
* Эта реализация обрабатывает вложение без ссылки на миниатюру
* (основную информацию, ссылка на оригинал, размер в байтах, размеры в пикселях, оригинальное имя, если есть).
*/
protected void parseAttachment(String html) {
AttachmentModel attachment = new AttachmentModel();
attachment.size = -1;
int startHref, endHref;
if ((startHref = html.indexOf("href=\"")) != -1 && (endHref = html.indexOf('\"', startHref + 6)) != -1) {
attachment.path = html.substring(startHref + 6, endHref);
String pathLower = attachment.path.toLowerCase(Locale.US);
if (pathLower.endsWith(".jpg") || pathLower.endsWith(".jpeg") || pathLower.endsWith(".png"))
attachment.type = AttachmentModel.TYPE_IMAGE_STATIC;
else if (pathLower.endsWith(".gif"))
attachment.type = AttachmentModel.TYPE_IMAGE_GIF;
else if (pathLower.endsWith(".svg") || pathLower.endsWith(".svgz"))
attachment.type = AttachmentModel.TYPE_IMAGE_SVG;
else if (pathLower.endsWith(".webm") || pathLower.endsWith(".mp4") || pathLower.endsWith(".ogv"))
attachment.type = AttachmentModel.TYPE_VIDEO;
else if (pathLower.endsWith(".mp3") || pathLower.endsWith(".ogg"))
attachment.type = AttachmentModel.TYPE_AUDIO;
else if (pathLower.startsWith("http") && (pathLower.contains("youtube.")))
attachment.type = AttachmentModel.TYPE_OTHER_NOTFILE;
else
attachment.type = AttachmentModel.TYPE_OTHER_FILE;
} else {
return;
}
Matcher byteSizeMatcher = ATTACHMENT_SIZE_PATTERN.matcher(html);
while (byteSizeMatcher.find()) {
try {
String digits = byteSizeMatcher.group(1).replace(',', '.');
int multiplier = 1;
String prefix = byteSizeMatcher.group(2);
if (prefix != null) {
if (prefix.equalsIgnoreCase("к") || prefix.equalsIgnoreCase("k")) multiplier = 1024;
else if (prefix.equalsIgnoreCase("м") || prefix.equalsIgnoreCase("m")) multiplier = 1024 * 1024;
}
int value = Math.round(Float.parseFloat(digits) / 1024 * multiplier);
attachment.size = value;
char nextChar = ' ';
int index = byteSizeMatcher.end();
while (index < html.length() && nextChar <= ' ') nextChar = html.charAt(index++);
if (nextChar == ',') break;
} catch (NumberFormatException e) {}
}
Matcher pxSizeMatcher = ATTACHMENT_PX_SIZE_PATTERN.matcher(html);
int indexEndPxSize = -1;
while (pxSizeMatcher.find()) {
try {
int width = Integer.parseInt(pxSizeMatcher.group(1));
int height = Integer.parseInt(pxSizeMatcher.group(2));
attachment.width = width;
attachment.height = height;
indexEndPxSize = pxSizeMatcher.end();
char nextChar = ' ';
int index = pxSizeMatcher.end();
while (index < html.length() && nextChar <= ' ') nextChar = html.charAt(index++);
if (nextChar == ',') break;
} catch (NumberFormatException e) {}
}
if (indexEndPxSize != -1) {
Matcher originalNameMatcher = ATTACHMENT_ORIGINAL_NAME_PATTERN.matcher(html);
if (originalNameMatcher.find(indexEndPxSize)) {
String originalName = originalNameMatcher.group(1).trim();
if (originalName != null && originalName.length() > 0) {
attachment.originalName = StringEscapeUtils.unescapeHtml4(originalName);
}
}
}
++currentThread.attachmentsCount;
currentAttachments.add(attachment);
}
/**
* Метод для парсинга ссылки на миниатюру вложения (принимает аттрибуты тэга <img (/)>, вызывается, когда встречается тэг img).
* В стандартной вакабе должен вызываться после обработки основной информации о вложении (уже распарсен методом {@link #parseAttachment(String)}).
* Эта реализация сохраняет ссылку (содержимое) аттрибута src в последний объект объект списка {@link #currentAttachments}, если список не пуст
* и если ссылка в этом объекте ещё не сохранена (т.е. сохраняется только первая встретившаяся после тэга <span class="filesize">).
*/
protected void parseThumbnail(String imgTag) {
int currentAttachmentsCount = currentAttachments.size();
if (currentAttachmentsCount > 0 && currentAttachments.get(currentAttachmentsCount - 1).thumbnail == null) {
int start, end;
if ((start = imgTag.indexOf("src=\"")) != -1 && (end = imgTag.indexOf('\"', start + 5)) != -1) {
currentAttachments.get(currentAttachmentsCount - 1).thumbnail = imgTag.substring(start + 5, end);
}
}
}
/**
* Метод для парсинга имени и адреса e-mail постера, принимает (HTML-строку)
* содержимое тэга <span class="postername"> или <span class="commentpostername">.<br>
* Сохраняется в {@link #currentPost}, поля {@link PostModel#name}, {@link PostModel#email} и (при необходимости) {@link PostModel#sage}.<br>
* Эта реализация парсит ссылку вида <a href="mailto:email"></a>.<br>
* Если email содержит sage, значение {@link PostModel#sage} устанавливается как true.
*/
protected void parseNameEmail(String raw) {
Matcher emailMatcher = EMAIL_PATTERN.matcher(raw);
if (emailMatcher.find()) {
currentPost.email = emailMatcher.group(1).trim();
if (currentPost.email.startsWith("mailto:")) currentPost.email = currentPost.email.substring(7);
if (currentPost.email.toLowerCase(Locale.US).contains("sage")) currentPost.sage = true;
currentPost.name = StringEscapeUtils.unescapeHtml4(emailMatcher.group(2)).trim();
} else {
currentPost.name = StringEscapeUtils.unescapeHtml4(raw).trim();
}
if (currentPost.name.contains("<span class=\"adminname\">")) currentPost.color = Color.RED;
if (currentPost.name.startsWith("<")) currentPost.name = RegexUtils.removeHtmlTags(currentPost.name);
}
/**
* Метод для парсинга даты, принимает строку - то (в стандартной вакабе), что идёт после тэгов
* <span class="postername">, <span class="commentpostername"> или <span class="postertrip">
* и до закрывающегося тэга </label>.<br>
* Сохраняется в {@link #currentPost}, поле {@link PostModel#timestamp}.<br>
* Эта реализация пытается распарсить дату имеющимся объектом {@link DateFormat}
* (переданным конструктору класса или по умолчанию, если был передан null), в случае исключения выводится сообщение в лог.
* @param date строка с датой
*/
protected void parseDate(String date) {
date = RegexUtils.removeHtmlTags(date).trim();
if (date.length() > 0) {
try {
currentPost.timestamp = dateFormat.parse(date).getTime();
} catch (Exception e) {
Logger.e(TAG, "cannot parse date; make sure you choose the right DateFormat for this chan", e);
}
}
}
/**
* Метод пропускает (читает все символы без сохранения), пока не встретится заданная последовательность символов.
* @param sequence массив символов
*/
protected void skipUntilSequence(char[] sequence) throws IOException {
int len = sequence.length;
if (len == 0) return;
int pos = 0;
int curChar;
while ((curChar = _in.read()) != -1) {
if (curChar == sequence[pos]) {
++pos;
if (pos == len) break;
} else {
if (pos != 0) pos = curChar == sequence[0] ? 1 : 0;
}
}
}
/**
* Метод читает и сохраняет все символы, пока не встретится заданная последовательность символов.
* @param sequence массив символов
* @return строка с прочитанными (сохранёнными) символами
*/
protected String readUntilSequence(char[] sequence) throws IOException {
int len = sequence.length;
if (len == 0) return "";
readBuffer.setLength(0);
int pos = 0;
int curChar;
while ((curChar = _in.read()) != -1) {
readBuffer.append((char) curChar);
if (curChar == sequence[pos]) {
++pos;
if (pos == len) break;
} else {
if (pos != 0) pos = curChar == sequence[0] ? 1 : 0;
}
}
int buflen = readBuffer.length();
if (buflen >= len) {
readBuffer.setLength(buflen - len);
return readBuffer.toString();
} else {
return "";
}
}
@Override
public void close() throws IOException {
_in.close();
}
}