ParserImpl.java example

Explorer

MadStore-master
- madstore-common
  - src
    - main
      - java
        it
        pronetics
        madstore
        common
        AtomConstants.java
        configuration
        servlet
        MadStoreConfigurationServletListener.java
        spring
        AbstractMadStoreConfigurationFactoryBean.java
        MadStoreConfigurationBean.java
        MadStoreConfigurationBeanDefinitionParser.java
        MadStoreConfigurationManager.java
        MadStoreConfigurationNamespaceHandler.java
        support
        MadStoreConfigurationException.java
        dom
        DomHelper.java
        spring
        SimpleTriggerListFactoryBean.java
    - test
      - java
        it
        pronetics
        madstore
        common
        configuration
        spring
        MadStoreConfigurationBeanTest.java
        dom
        DomHelperTest.java
        test
        util
        Utils.java
- madstore-crawler
  - src
    - main
      - java
        it
        pronetics
        madstore
        crawler
        CrawlerConfiguration.java
        MadStoreCrawler.java
        Pipeline.java
        Stage.java
        downloader
        Downloader.java
        impl
        DownloaderImpl.java
        impl
        CrawlerConfigurationImpl.java
        CrawlerTask.java
        CrawlerTaskFactory.java
        MadStoreCrawlerImpl.java
        PipelineImpl.java
        PreprocessingStage.java
        TransformerStage.java
        grid
        GridCrawlerTask.java
        GridCrawlerTaskFactory.java
        ParserTask.java
        ParserTaskResult.java
        ProcessorTask.java
        ProcessorTaskResult.java
        support
        MadStoreGrid.java
        MadStoreGridListener.java
        local
        CrawlerActor.java
        DownloadLinkMessage.java
        DownloadedPageMessage.java
        DownloaderActor.java
        ErrorMessage.java
        LocalCrawlerTask.java
        LocalCrawlerTaskFactory.java
        OutgoingLinksMessage.java
        ParsedPageMessage.java
        ParserActor.java
        ProcessorActor.java
        StartCrawlingMessage.java
        model
        Link.java
        Page.java
        parser
        Parser.java
        filter
        LinkFilter.java
        impl
        ServerFilter.java
        impl
        ParserImpl.java
        publisher
        AtomPublisher.java
        impl
        AtomPublisherImpl.java
        spring
        CrawlerConfigurationsFactoryBean.java
        CrawlerTaskFactoryBean.java
        GridGainHomeFactoryBean.java
        GridGainLocalAddressFactoryBean.java
        transformer
        Transformer.java
        impl
        HAtomToAtomTransformer.java
    - test
      - java
        it
        pronetics
        madstore
        crawler
        downloader
        impl
        DownloaderImplTest.java
        impl
        MadStoreCrawlerImplTest.java
        PipelineImplTest.java
        PreprocessingStageTest.java
        TransformerStageTest.java
        local
        LocalCrawlerTaskTest.java
        parser
        filter
        impl
        ServerFilterTest.java
        impl
        ParserImplTest.java
        publisher
        impl
        AtomPublisherImplTest.java
        test
        util
        Utils.java
        transformer
        impl
        HAtomToAtomTransformerTest.java
- madstore-crawler-integration-tests
  - src
    - test
      - java
        it
        pronetics
        madstore
        crawler
        CrawlerTest.java
        test
        util
        HttpConstants.java
- madstore-repository
  - src
    - main
      - java
        it
        pronetics
        madstore
        repository
        CollectionRepository.java
        EntryRepository.java
        index
        IndexManager.java
        PropertyPath.java
        SearchResult.java
        impl
        LuceneDirectoryFactory.java
        LuceneFSDirectoryFactory.java
        LuceneIndexManager.java
        LuceneIndexer.java
        LuceneSearcher.java
        jcr
        impl
        AbstractJcrRepository.java
        JcrCollectionRepository.java
        JcrEntryRepository.java
        xml
        JcrAtomContentHandlerFactory.java
        JcrAtomExportContentHandler.java
        JcrContentHandlerFactory.java
        spring
        HomeDirFactoryBean.java
        IndexFolderFactoryBean.java
        IndexedPropertiesFactoryBean.java
        MaxHistoryFactoryBean.java
        PasswordFactoryBean.java
        UsernameFactoryBean.java
        support
        AtomIndexingException.java
        AtomRepositoryException.java
        tasks
        CleanRepositoryHistoryTask.java
        util
        PagingList.java
- madstore-repository-integration-tests
  - src
    - test
      - java
        it
        pronetics
        madstore
        repository
        index
        impl
        IndexManagerMultiThreadTest.java
        IndexManagerTest.java
        jcr
        impl
        JcrRepositoryBehaviorTest.java
        tasks
        CleanRepositoryHistoryTaskTest.java
        test
        util
        TesterThread.java
        TesterThreadFactory.java
        Utils.java
- madstore-server
  - src
    - main
      - java
        it
        pronetics
        madstore
        server
        HttpConstants.java
        abdera
        util
        AbderaHelper.java
        jaxrs
        atom
        ResourceHandler.java
        impl
        AbstractResourceHandler.java
        providers
        AbderaAtomProvider.java
        AbderaOpenSearchDescriptionProvider.java
        AbderaServiceDocumentProvider.java
        pub
        CollectionResourceHandler.java
        EntryResourceHandler.java
        ServiceResourceHandler.java
        impl
        DefaultCollectionResourceHandler.java
        DefaultEntryResourceHandler.java
        DefaultServiceResourceHandler.java
        resolver
        ResourceName.java
        ResourceResolver.java
        ResourceUriFor.java
        search
        CollectionSearchResourceHandler.java
        SearchDescriptionResourceHandler.java
        impl
        DefaultCollectionSearchResourceHandler.java
        DefaultSearchDescriptionResourceHandler.java
        spring
        HttpCacheMaxAgeFactoryBean.java
        OSDescriptionFactoryBean.java
        OSShortNameFactoryBean.java
        WorkspaceFactoryBean.java
    - test
      - java
        it
        pronetics
        madstore
        server
        abdera
        util
        AbderaHelperTest.java
        jaxrs
        atom
        pub
        impl
        DefaultCollectionResourceHandlerTest.java
        DefaultEntryResourceHandlerTest.java
        DefaultServiceResourceHandlerTest.java
        resolver
        ResourceResolverTest.java
        search
        impl
        DefaultCollectionSearchResourceHandlerTest.java
        DefaultSearchDescriptionResourceHandlerTest.java
        test
        util
        Utils.java
- madstore-server-integration-tests
  - src
    - main
      - java
        it
        pronetics
        madstore
        server
        test
        servlet
        DataServlet.java
    - test
      - java
        it
        pronetics
        madstore
        server
        test
        EntryTest.java
        FeedTest.java
        HttpConstants.java
        OpenSearchCollectionTest.java
        OpenSearchDescriptionTest.java
        ServiceDocumentTest.java

/**
 * Copyright 2008 - 2009 Pro-Netics S.P.A.
 *
 *    Licensed under the Apache License, Version 2.0 (the "License");
 *    you may not use this file except in compliance with the License.
 *    You may obtain a copy of the License at
 *
 *        http://www.apache.org/licenses/LICENSE-2.0
 *
 *    Unless required by applicable law or agreed to in writing, software
 *    distributed under the License is distributed on an "AS IS" BASIS,
 *    WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 *    See the License for the specific language governing permissions and
 *    limitations under the License.
 */
package it.pronetics.madstore.crawler.parser.impl;

import it.pronetics.madstore.crawler.model.Link;
import it.pronetics.madstore.crawler.model.Page;
import it.pronetics.madstore.crawler.parser.Parser;
import it.pronetics.madstore.crawler.parser.filter.LinkFilter;
import java.net.URI;
import java.util.ArrayList;
import java.util.Collection;
import java.util.HashSet;
import org.htmlparser.NodeFilter;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

/**
 * {@link it.pronetics.madstore.crawler.parser.Parser} implementation extracting links and providing
 * URI normalization by:
 * <ul>
 * <li>Removing unneeded sub-paths.</li>
 * <li>Removing the URI fragment.</li>
 * <li>Removing the URI query string.</li>
 * <li>Making the URI absolute.</li>
 * </ul>
 *
 * @author Salvatore Incandela
 * @author Sergio Bossa
 */
public class ParserImpl implements Parser {

    private static final Logger LOG = LoggerFactory.getLogger(ParserImpl.class);

    public Collection<Link> parse(Page page, LinkFilter linkFilter) {
        LOG.info("Parsing and extracting links from: {}", page.getLink());
        Collection<String> extractedLinks = extractLinks(page);
        Collection<Link> parsedLinks = new HashSet<Link>(extractedLinks.size());
        for (String link : extractedLinks) {
            try {
                String normalizedLink = removeFragment(link);
                normalizedLink = removeQueryString(normalizedLink);
                normalizedLink = makeAbsolute(page.getLink().getLink(), normalizedLink);
                Link linkToAdd = new Link(normalizedLink);
                if (linkFilter.accept(linkToAdd)) {
                    parsedLinks.add(linkToAdd);
                }
            } catch (Exception ex) {
                LOG.warn("Error parsing link: {}", link);
                LOG.warn(ex.getMessage());
                LOG.debug(ex.getMessage(), ex);
            }
        }
        return parsedLinks;
    }

    private Collection<String> extractLinks(Page page) {
        try {
            org.htmlparser.Parser htmlParser = new org.htmlparser.Parser(page.getData());
            NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);
            NodeList linkNodes = htmlParser.extractAllNodesThatMatch(linkFilter);
            Collection<String> links = new ArrayList<String>(linkNodes.size());
            for (int i = 0; i < linkNodes.size(); i++) {
                String link = ((LinkTag) linkNodes.elementAt(i)).extractLink().trim();
                links.add(link);
            }
            return links;
        } catch (Exception ex) {
            LOG.warn("Error extracting links from: {}", page.getLink());
            LOG.warn(ex.getMessage());
            LOG.debug(ex.getMessage(), ex);
            return new ArrayList<String>(0);
        }
    }

    private String removeFragment(String url) {
        String result = url;
        int fragmentIndex = url.indexOf('#');
        if (fragmentIndex >= 0) {
            result = url.substring(0, fragmentIndex);
        }
        return result;
    }

    private String removeQueryString(String url) {
        String result = url;
        int queryStringIndex = url.indexOf('?');
        if (queryStringIndex >= 0) {
            result = url.substring(0, queryStringIndex);
        }
        return result;
    }

    private String makeAbsolute(String base, String link) throws Exception {
        if (link == null || link.equals("")) {
            return new URI(base).normalize().toString();
        } else {
            URI absoluteUri = new URI(base).resolve(link).normalize();
            return absoluteUri.toString();
        }
    }
}