WebContentParserImpl.java example

Explorer

openalexis-master
- alexis-dao
  - src
    - main
      - java
        com
        mothsoft
        alexis
        dao
        DataSetDao.java
        DataSetDaoImpl.java
        DataSetPointDao.java
        DataSetPointDaoImpl.java
        DataSetTypeDao.java
        DataSetTypeDaoImpl.java
        DocumentDao.java
        DocumentDaoImpl.java
        ModelDao.java
        ModelDaoImpl.java
        RssFeedDao.java
        RssFeedDaoImpl.java
        SocialConnectionDao.java
        SocialConnectionDaoImpl.java
        SourceDao.java
        SourceDaoImpl.java
        TermDao.java
        TermDaoImpl.java
        TopicDao.java
        TopicDaoImpl.java
        TweetDao.java
        TweetDaoImpl.java
        UserDao.java
        UserDaoImpl.java
- alexis-domain
  - src
    - main
      - java
        com
        mothsoft
        alexis
        domain
        AssociationType.java
        ByteArrayAsStringFieldBridge.java
        Calculator.java
        DataRange.java
        DataSet.java
        DataSetAggregationAction.java
        DataSetPoint.java
        DataSetType.java
        DateAsLongFieldBridge.java
        DateConstants.java
        Document.java
        DocumentAssociation.java
        DocumentContent.java
        DocumentNamedEntity.java
        DocumentScore.java
        DocumentState.java
        DocumentStateFieldBridge.java
        DocumentTerm.java
        DocumentTermId.java
        DocumentType.java
        DocumentUser.java
        DocumentUserFieldBridge.java
        Edge.java
        FacebookSource.java
        Graph.java
        ImportantNamedEntity.java
        ImportantTerm.java
        Model.java
        ModelState.java
        ModelType.java
        Node.java
        ParsedContent.java
        PartOfSpeech.java
        RssFeed.java
        RssSource.java
        Sentiment.java
        SocialConnection.java
        SocialNetworkType.java
        SortOrder.java
        Source.java
        SourceType.java
        StopWords.java
        TFIDF.java
        Term.java
        TermComparator.java
        TimeUnits.java
        Topic.java
        TopicActivityDataSet.java
        TopicDocument.java
        TopicDocumentFieldBridge.java
        Tweet.java
        TweetFormatter.java
        TweetHashtag.java
        TweetLink.java
        TweetMention.java
        TwitterSource.java
        User.java
        UserApiToken.java
        UserAuthenticationDetails.java
        util
        HttpClientResponse.java
        NetworkingUtil.java
    - test
      - java
        com
        mothsoft
        alexis
        domain
        CalculatorTest.java
        ModelTest.java
- alexis-engine
  - src
    - main
      - java
        com
        mothsoft
        alexis
        engine
        CronTaskTrigger.java
        Task.java
        numeric
        CorrelationCalculator.java
        CorrelationCalculatorImpl.java
        DataSetImporter.java
        President2012DataSetImporter.java
        StockQuoteDataSetImporter.java
        TopicActivityDataSetImporter.java
        predictive
        AbstractModelTrainer.java
        ModelTrainer.java
        OpenNLPMaxentContextBuilder.java
        OpenNLPMaxentModelExecutorTask.java
        OpenNLPMaxentModelTrainerTask.java
        retrieval
        DocumentRetrievalTaskImpl.java
        IntelligentDelay.java
        RetrievalTask.java
        RssRetrievalTaskImpl.java
        TwitterRetrievalTaskImpl.java
        textual
        CompositeTaskImpl.java
        DocumentFeatureContext.java
        DocumentFeatures.java
        LuceneIndexerTask.java
        ParseResponseMessageListener.java
        TFIDFCalculatorImpl.java
        TopicDocumentMatcherImpl.java
        TransactionalCompositeTaskImpl.java
        WebContentParser.java
        WebContentParserImpl.java
    - test
      - java
        com
        mothsoft
        alexis
        engine
        numeric
        CorrelationCalculatorTest.java
        predictive
        OpenNLPMaxentTest.java
        textual
        WebContentParserTest.java
- alexis-rest-api
  - src
    - main
      - java
        com
        mothsoft
        alexis
        rest
        analysis
        v1
        AnalysisResource.java
        Edge.java
        Graph.java
        Node.java
        dataset
        v1
        Correlation.java
        DataSet.java
        DataSetPoint.java
        DataSetResource.java
        document
        v1
        Document.java
        DocumentResource.java
        ImportantTerm.java
        ImportantTerms.java
        Tweet.java
        source
        v1
        Source.java
        SourceResource.java
- alexis-security
  - src
    - main
      - java
        com
        mothsoft
        alexis
        security
        CurrentUserUtil.java
- alexis-service-api
  - src
    - main
      - java
        com
        mothsoft
        alexis
        service
        DataSetService.java
        DocumentService.java
        ModelService.java
        SourceService.java
        TopicService.java
        UserService.java
- alexis-service-impl
  - src
    - main
      - java
        com
        mothsoft
        alexis
        service
        impl
        DataSetServiceImpl.java
        DocumentServiceImpl.java
        ModelServiceImpl.java
        SourceServiceImpl.java
        TopicServiceImpl.java
        UserServiceImpl.java
        security
        AlexisUserDetailsService.java
- alexis-service-war
  - src
    - main
      - java
        com
        mothsoft
        alexis
        rest
        analysis
        v1
        impl
        AnalysisResourceImpl.java
        dataset
        v1
        impl
        DataSetResourceImpl.java
        document
        v1
        impl
        DocumentResourceImpl.java
        source
        v1
        impl
        SourceResourceImpl.java
        service
        exception
        DefaultExceptionMapper.java
        EmptyResultDataAccessExceptionMapper.java
        SecurityExceptionMapper.java
        monitoring
        RequestTimingFilter.java
        scheduler
        StartQuartzTask.java
        security
        AlexisApiAuthenticationProvider.java
- alexis-ui-war
  - src
    - main
      - java
        com
        mothsoft
        alexis
        web
        AddEditModelBackingBean.java
        AddEditSourceBackingBean.java
        AddEditTopicBackingBean.java
        ChartServlet.java
        ChartingBackingBean.java
        CorrelationBackingBean.java
        CurrentUser.java
        DashboardBackingBean.java
        ListDocumentsBackingBean.java
        ListModelsBackingBean.java
        ListSourcesBackingBean.java
        ListTopicsBackingBean.java
        Navigation.java
        SearchBackingBean.java
        SelectSeriesBackingBean.java
        TermPredictorsBackingBean.java
        TermsOfServiceBackingBean.java
        TwitterBackingBean.java
        ValueObject.java
        ViewDocumentDetailsBackingBean.java
        ViewTopicDetailsBackingBean.java
        faces
        HumanReadableBytesConverter.java
        LoginErrorPhaseListener.java
        LuceneSearchExpressionValidator.java
        TweetConverter.java
        logging
        JavaUtilLoggingFactory.java
        security
        AlexisWebAuthenticationProvider.java
        GoogleOauthAuthenticationFilter.java
        GoogleOauthAuthenticationProvider.java
        GoogleOauthServlet.java
        OutboundRestAuthenticationInterceptor.java
        StoreUsernameInSessionFilter.java
        TermsOfServiceFilter.java
- twitter-integration
  - src
    - main
      - java
        com
        mothsoft
        integration
        twitter
        TwitterService.java
        TwitterServiceException.java
        TwitterServiceImpl.java
    - test
      - java
        com
        mothsoft
        integration
        twitter
        TwitterServiceImplTest.java

/*   Copyright 2012 Tim Garrett, Mothsoft LLC
 *
 *  Licensed under the Apache License, Version 2.0 (the "License");
 *  you may not use this file except in compliance with the License.
 *  You may obtain a copy of the License at
 *
 *      http://www.apache.org/licenses/LICENSE-2.0
 *
 *  Unless required by applicable law or agreed to in writing, software
 *  distributed under the License is distributed on an "AS IS" BASIS,
 *  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 *  See the License for the specific language governing permissions and
 *  limitations under the License.
 */
package com.mothsoft.alexis.engine.textual;

import java.io.BufferedInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.StringReader;
import java.util.Arrays;
import java.util.Collections;
import java.util.HashSet;
import java.util.Set;

import org.apache.commons.io.input.ReaderInputStream;
import org.apache.commons.lang.StringUtils;
import org.apache.tika.detect.DefaultDetector;
import org.apache.tika.detect.Detector;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MediaType;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.html.BoilerpipeContentHandler;
import org.apache.tika.parser.html.HtmlParser;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

import de.l3s.boilerpipe.extractors.ArticleExtractor;
import de.l3s.boilerpipe.extractors.KeepEverythingExtractor;

public class WebContentParserImpl implements WebContentParser {

    private org.apache.tika.parser.AutoDetectParser autoDetectParser;
    private Detector detector;

    private static final Set<MediaType> HTML_TYPES = Collections.unmodifiableSet(new HashSet<MediaType>(Arrays.asList(
            MediaType.text("html"), MediaType.application("xhtml+xml"), MediaType.application("vnd.wap.xhtml+xml"),
            MediaType.application("x-asp"))));

    public WebContentParserImpl() {
        this.autoDetectParser = new AutoDetectParser();
        this.detector = new DefaultDetector();
    }

    public String parse(final InputStream is) throws IOException {
        final InputStream bufferedStream = buffered(is);

        final StringBuffer buffer = new StringBuffer();
        final org.apache.tika.mime.MediaType mediaType = this.detector.detect(bufferedStream, new Metadata());

        final ContentHandler handler;
        if (HTML_TYPES.contains(mediaType)) {
            // if coming in as a stream and HTML, likely part of a larger
            // document (web page), we would like to do article extraction
            // FIXME - smarter handler?
            handler = new BoilerpipeContentHandler(new FullTextContentHandler(buffer), ArticleExtractor.INSTANCE);
        } else {
            // assuming full documents like Word or PDF are more about a single
            // topic
            handler = new FullTextContentHandler(buffer);
        }

        return parse(this.autoDetectParser, bufferedStream, handler, buffer);
    }

    private BufferedInputStream buffered(InputStream is) {
        return new BufferedInputStream(is, 1024 * 16);
    }

    public String parseHTML(final String string) throws IOException {
        final StringBuffer buffer = new StringBuffer();
        final HtmlParser htmlParser = new HtmlParser();
        final BoilerpipeContentHandler handler = new BoilerpipeContentHandler(new FullTextContentHandler(buffer),
                KeepEverythingExtractor.INSTANCE);
        return parse(htmlParser, new ReaderInputStream(new StringReader(string)), handler, buffer);
    }

    private String parse(org.apache.tika.parser.Parser parser, InputStream is, ContentHandler handler,
            StringBuffer buffer) throws IOException {
        final Metadata metadata = new Metadata();
        final ParseContext context = new ParseContext();

        try {
            parser.parse(is, handler, metadata, context);
            return StringUtils.trimToEmpty(buffer.toString());
        } catch (SAXException e) {
            throw new IOException(e.getLocalizedMessage());
        } catch (TikaException e) {
            throw new IOException(e.getLocalizedMessage());
        }
    }

    private class FullTextContentHandler extends DefaultHandler {
        private StringBuffer buffer;
        private boolean lastWasWhitespace = false;

        FullTextContentHandler(final StringBuffer buffer) {
            this.buffer = buffer;
        }

        @Override
        public void characters(char[] chars, int start, int length) throws SAXException {
            buffer.append(chars, start, length);
            lastWasWhitespace = false;
        }

        @Override
        public void ignorableWhitespace(char[] arg0, int arg1, int arg2) throws SAXException {
            if (!lastWasWhitespace) {
                buffer.append(" ");
                lastWasWhitespace = true;
            }
        }

    }
}