MadStoreCrawlerImpl.java example

Explorer

MadStore-master
- madstore-common
  - src
    - main
      - java
        it
        pronetics
        madstore
        common
        AtomConstants.java
        configuration
        servlet
        MadStoreConfigurationServletListener.java
        spring
        AbstractMadStoreConfigurationFactoryBean.java
        MadStoreConfigurationBean.java
        MadStoreConfigurationBeanDefinitionParser.java
        MadStoreConfigurationManager.java
        MadStoreConfigurationNamespaceHandler.java
        support
        MadStoreConfigurationException.java
        dom
        DomHelper.java
        spring
        SimpleTriggerListFactoryBean.java
    - test
      - java
        it
        pronetics
        madstore
        common
        configuration
        spring
        MadStoreConfigurationBeanTest.java
        dom
        DomHelperTest.java
        test
        util
        Utils.java
- madstore-crawler
  - src
    - main
      - java
        it
        pronetics
        madstore
        crawler
        CrawlerConfiguration.java
        MadStoreCrawler.java
        Pipeline.java
        Stage.java
        downloader
        Downloader.java
        impl
        DownloaderImpl.java
        impl
        CrawlerConfigurationImpl.java
        CrawlerTask.java
        CrawlerTaskFactory.java
        MadStoreCrawlerImpl.java
        PipelineImpl.java
        PreprocessingStage.java
        TransformerStage.java
        grid
        GridCrawlerTask.java
        GridCrawlerTaskFactory.java
        ParserTask.java
        ParserTaskResult.java
        ProcessorTask.java
        ProcessorTaskResult.java
        support
        MadStoreGrid.java
        MadStoreGridListener.java
        local
        CrawlerActor.java
        DownloadLinkMessage.java
        DownloadedPageMessage.java
        DownloaderActor.java
        ErrorMessage.java
        LocalCrawlerTask.java
        LocalCrawlerTaskFactory.java
        OutgoingLinksMessage.java
        ParsedPageMessage.java
        ParserActor.java
        ProcessorActor.java
        StartCrawlingMessage.java
        model
        Link.java
        Page.java
        parser
        Parser.java
        filter
        LinkFilter.java
        impl
        ServerFilter.java
        impl
        ParserImpl.java
        publisher
        AtomPublisher.java
        impl
        AtomPublisherImpl.java
        spring
        CrawlerConfigurationsFactoryBean.java
        CrawlerTaskFactoryBean.java
        GridGainHomeFactoryBean.java
        GridGainLocalAddressFactoryBean.java
        transformer
        Transformer.java
        impl
        HAtomToAtomTransformer.java
    - test
      - java
        it
        pronetics
        madstore
        crawler
        downloader
        impl
        DownloaderImplTest.java
        impl
        MadStoreCrawlerImplTest.java
        PipelineImplTest.java
        PreprocessingStageTest.java
        TransformerStageTest.java
        local
        LocalCrawlerTaskTest.java
        parser
        filter
        impl
        ServerFilterTest.java
        impl
        ParserImplTest.java
        publisher
        impl
        AtomPublisherImplTest.java
        test
        util
        Utils.java
        transformer
        impl
        HAtomToAtomTransformerTest.java
- madstore-crawler-integration-tests
  - src
    - test
      - java
        it
        pronetics
        madstore
        crawler
        CrawlerTest.java
        test
        util
        HttpConstants.java
- madstore-repository
  - src
    - main
      - java
        it
        pronetics
        madstore
        repository
        CollectionRepository.java
        EntryRepository.java
        index
        IndexManager.java
        PropertyPath.java
        SearchResult.java
        impl
        LuceneDirectoryFactory.java
        LuceneFSDirectoryFactory.java
        LuceneIndexManager.java
        LuceneIndexer.java
        LuceneSearcher.java
        jcr
        impl
        AbstractJcrRepository.java
        JcrCollectionRepository.java
        JcrEntryRepository.java
        xml
        JcrAtomContentHandlerFactory.java
        JcrAtomExportContentHandler.java
        JcrContentHandlerFactory.java
        spring
        HomeDirFactoryBean.java
        IndexFolderFactoryBean.java
        IndexedPropertiesFactoryBean.java
        MaxHistoryFactoryBean.java
        PasswordFactoryBean.java
        UsernameFactoryBean.java
        support
        AtomIndexingException.java
        AtomRepositoryException.java
        tasks
        CleanRepositoryHistoryTask.java
        util
        PagingList.java
- madstore-repository-integration-tests
  - src
    - test
      - java
        it
        pronetics
        madstore
        repository
        index
        impl
        IndexManagerMultiThreadTest.java
        IndexManagerTest.java
        jcr
        impl
        JcrRepositoryBehaviorTest.java
        tasks
        CleanRepositoryHistoryTaskTest.java
        test
        util
        TesterThread.java
        TesterThreadFactory.java
        Utils.java
- madstore-server
  - src
    - main
      - java
        it
        pronetics
        madstore
        server
        HttpConstants.java
        abdera
        util
        AbderaHelper.java
        jaxrs
        atom
        ResourceHandler.java
        impl
        AbstractResourceHandler.java
        providers
        AbderaAtomProvider.java
        AbderaOpenSearchDescriptionProvider.java
        AbderaServiceDocumentProvider.java
        pub
        CollectionResourceHandler.java
        EntryResourceHandler.java
        ServiceResourceHandler.java
        impl
        DefaultCollectionResourceHandler.java
        DefaultEntryResourceHandler.java
        DefaultServiceResourceHandler.java
        resolver
        ResourceName.java
        ResourceResolver.java
        ResourceUriFor.java
        search
        CollectionSearchResourceHandler.java
        SearchDescriptionResourceHandler.java
        impl
        DefaultCollectionSearchResourceHandler.java
        DefaultSearchDescriptionResourceHandler.java
        spring
        HttpCacheMaxAgeFactoryBean.java
        OSDescriptionFactoryBean.java
        OSShortNameFactoryBean.java
        WorkspaceFactoryBean.java
    - test
      - java
        it
        pronetics
        madstore
        server
        abdera
        util
        AbderaHelperTest.java
        jaxrs
        atom
        pub
        impl
        DefaultCollectionResourceHandlerTest.java
        DefaultEntryResourceHandlerTest.java
        DefaultServiceResourceHandlerTest.java
        resolver
        ResourceResolverTest.java
        search
        impl
        DefaultCollectionSearchResourceHandlerTest.java
        DefaultSearchDescriptionResourceHandlerTest.java
        test
        util
        Utils.java
- madstore-server-integration-tests
  - src
    - main
      - java
        it
        pronetics
        madstore
        server
        test
        servlet
        DataServlet.java
    - test
      - java
        it
        pronetics
        madstore
        server
        test
        EntryTest.java
        FeedTest.java
        HttpConstants.java
        OpenSearchCollectionTest.java
        OpenSearchDescriptionTest.java
        ServiceDocumentTest.java

/**
 * Copyright 2008 - 2009 Pro-Netics S.P.A.
 *
 *    Licensed under the Apache License, Version 2.0 (the "License");
 *    you may not use this file except in compliance with the License.
 *    You may obtain a copy of the License at
 *
 *        http://www.apache.org/licenses/LICENSE-2.0
 *
 *    Unless required by applicable law or agreed to in writing, software
 *    distributed under the License is distributed on an "AS IS" BASIS,
 *    WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 *    See the License for the specific language governing permissions and
 *    limitations under the License.
 */
package it.pronetics.madstore.crawler.impl;

import it.pronetics.madstore.crawler.CrawlerConfiguration;
import it.pronetics.madstore.crawler.MadStoreCrawler;
import it.pronetics.madstore.crawler.downloader.Downloader;
import it.pronetics.madstore.crawler.model.Link;
import it.pronetics.madstore.crawler.parser.Parser;

import it.pronetics.madstore.crawler.publisher.AtomPublisher;
import java.util.ArrayList;
import java.util.Collection;
import java.util.Collections;
import java.util.LinkedList;
import java.util.List;

import java.util.concurrent.Callable;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

/**
 * Default {@link it.pronetics.madstore.crawler.MadStoreCrawler} implementation.<br>
 * The actual crawling process execution is defined by a {@link CrawlerTask} implementation,
 * created through the configured {@link CrawlerTaskFactory}.
 * <br>
 * Each site is crawled concurrently by a different {@link CrawlerTask} instance: the whole
 * crawling cycle ends once all configured sites are crawled.
 *
 * @author Sergio Bossa
 * @author Salvatore Incandela
 */
public class MadStoreCrawlerImpl implements MadStoreCrawler {

    private static final transient Logger LOG = LoggerFactory.getLogger(MadStoreCrawlerImpl.class);
    private ExecutorService crawlerExecutor = Executors.newCachedThreadPool();
    private List<CrawlerConfiguration> crawlerConfigurations;
    private CrawlerTaskFactory crawlerTaskFactory;
    private Parser parser;
    private Downloader downloader;
    private AtomPublisher publisher;

    public void setCrawlerConfigurations(List<CrawlerConfiguration> crawlerConfigurations) {
        this.crawlerConfigurations = new LinkedList<CrawlerConfiguration>(crawlerConfigurations);
    }

    public List<CrawlerConfiguration> getCrawlerConfigurations() {
        return Collections.unmodifiableList(crawlerConfigurations);
    }

    /**
     * Start the crawling process, composed by a concurrent crawling task for each site to crawl.
     * <br>
     * This method call is blocking: it ends once all sites are crawled.
     */
    public void start() {
        try {
            LOG.info("Start crawling process.");
            Collection<Callable<Object>> tasks = new ArrayList<Callable<Object>>(crawlerConfigurations.size());
            for (final CrawlerConfiguration configuration : this.crawlerConfigurations) {
                final String server = configuration.getServer();
                final String startLink = configuration.getStartLink();
                tasks.add(new Callable() {

                    public Object call() throws Exception {
                        CrawlerTask task = crawlerTaskFactory.makeCrawlerTask(
                                downloader, parser, publisher,
                                configuration.getPipeline(),
                                configuration.getMaxConcurrentDownloads(),configuration.getMaxVisitedLinks());
                        task.execute(new Link(server + "/" + startLink));
                        return null;
                    }
                });
            }
            crawlerExecutor.invokeAll(tasks);
            LOG.info("Finished crawling process.");
        } catch (InterruptedException ex) {
            LOG.error(ex.getMessage(), ex);
        }
    }

    public void setCrawlerTaskFactory(CrawlerTaskFactory crawlerTaskFactory) {
        this.crawlerTaskFactory = crawlerTaskFactory;
    }

    public void setDownloader(Downloader downloader) {
        this.downloader = downloader;
    }

    public void setParser(Parser parser) {
        this.parser = parser;
    }

    public void setPublisher(AtomPublisher publisher) {
        this.publisher = publisher;
    }
}