CrawlerManager.java example

Explorer

infoobject-plugin-master
- src
  - main
    - java
      - com
        publicobject
        misc
        swing
        JSeparatorTable.java
      - org
        infoobject
        core
        agent
        application
        AgentManager.java
        dao
        AgentDao.java
        domain
        Agent.java
        components
        AbstractManagerFactory.java
        ComponentFactory.java
        DefaultModelFactory.java
        ManagerFactory.java
        ModelFactory.java
        crawl
        CrawlJob.java
        CrawlJobResultHandler.java
        CrawlJobResultHandlerAdapter.java
        CrawlerManager.java
        ExtractorException.java
        InterceptingCrawlJobResultHandler.java
        MetadataExtractor.java
        MetadataExtractorResult.java
        ui
        CrawlUrlDialog.java
        XsltMetadataExtractorPresenter.java
        xml
        XsltMetadataExtractor.java
        infoobject
        application
        InformationObjectManager.java
        dao
        AbstractInformationObjectRepository.java
        InformationMetadataDao.java
        InformationObjectRepository.java
        ObjectLinkDao.java
        TaggingDao.java
        domain
        InformationObject.java
        InformationObjectModel.java
        Metadata.java
        MetadataPost.java
        ObjectLink.java
        ObjectLinkPost.java
        ObjectName.java
        Tag.java
        Tagging.java
        TaggingPost.java
        support
        DefaultInformationObject.java
        DefaultInformationObjectModel.java
        event
        Events.java
        InformationMetadataEvent.java
        InformationMetadataHandler.java
        InformationObjectListener.java
        InformationObjectListenerAdapter.java
        ObjectLinkingEvent.java
        ObjectLinkingHandler.java
        TaggingEvent.java
        TaggingHandler.java
        to
        InformationObjectTo.java
        MetadataTo.java
        ObjectLinkingTo.java
        TaggingTo.java
        rdf
        RdfContainer.java
        vocabulary
        DC.java
        FOAF.java
        InformationObjectVoc.java
        relation
        application
        RelationManager.java
        domain
        InformationRelation.java
        InformationRelationEdge.java
        PositionRelation.java
        PositionRelationEdge.java
        Relation.java
        RelationEdge.java
        RelationEdgeVisitor.java
        RelationModel.java
        tag
        application
        TaggingRelationManager.java
        domain
        TaggingRelation.java
        ui
        TagPresenter.java
        TagginPostCellRenderer.java
        TaggingCellrenderer.java
        util
        Digest.java
        VetoableAbstractModel.java
        net
        HtmlSaxParserFactory.java
        ui
        DefaultWizardPage.java
        Wizard.java
        WizardPage.java
        html
        application
        HtmlRelationHandler.java
        domain
        Anchor.java
        magicmap
        components
        GuiComponentFactory.java
        PluginManagerFactory.java
        infoobject
        ui
        InformationMetadataView.java
        InformationTaggingView.java
        ObjectLinkDetailsView.java
        dialog
        CreateInformationObjectDialog.java
        DeleteInformationObjectDialog.java
        forms
        InformationObjectForm.java
        InformationObjectListForm.java
        ObjectLinkDetailsForm.java
        ObjectLinkForm.java
        util
        InformationObjectCellRenderer.java
        InformationObjectLoadCallback.java
        InformationObjectMatcher.java
        InformationObjectMatcherEditor.java
        InformationObjectNodeListFactory.java
        NodeMatcher.java
        NodeMatcherEditor.java
        TagInformationObjectMatcher.java
        TagInformationObjectNodeMatcher.java
        node
        application
        InformationNodeLoader.java
        InformationNodeManager.java
        PositionLinkRelationManager.java
        model
        InformationObjectNode.java
        InformationObjectNodeGraph.java
        InformationObjectNodeGraphImpl.java
        InformationObjectNodeModel.java
        InformationObjectNodeModelImpl.java
        ui
        CreateInformationObjectNodeView.java
        InformationNodePresenter.java
        ObjectLinkSelectionView.java
        action
        AbstractNodeAction.java
        EnableAutoLoadAction.java
        LoadAction.java
        ShowCreateInformationObjectAction.java
        ShowDeleteInformationObjectAction.java
        util
        NodeCellRenderer.java
        plugin
        InformationObjectPlugin.java
        visualization
        application
        VisualizationManager.java
        layout
        AssociationSpringLayout.java
        InformationNodeLayoutManager.java
        InformationVertex.java
        LayoutThread.java
        PhysicalVertex.java
        RelationJungEdge.java
        ui
        VisualizationView.java
        util
        InformationNodeIconCache.java
        InformationObjectNodeIcon.java
        openrdf
        infoobject
        RdfInformationObjectRepository.java
        dao
        InformationObjectToTransformer.java
        ObjectLinkTransformer.java
        OpenRdfDao.java
        RdfInformationMetadataDao.java
        RdfObjectLinkDao.java
        RdfTaggingDao.java
        TaggingTransformer.java
        util
        BindingSetMapper.java
        ConnectionCallback.java
        OpenRdfTemplate.java
        RdfException.java
  - test
    - java
      - org
        infoobject
        core
        crawl
        xml
        XsltMetadataExtractorTest.java

package org.infoobject.core.crawl;

import org.infoobject.core.crawl.CrawlJobResultHandler;
import org.infoobject.core.rdf.vocabulary.InformationObjectVoc;
import org.infoobject.core.rdf.RdfContainer;
import org.openrdf.model.Statement;
import org.openrdf.model.Resource;
import org.openrdf.model.vocabulary.RDF;

import java.util.Iterator;

/**
 * <p>
 * Class MetadataExtractorManager ZUSAMMENFASSUNG
 * </p>
 * <p>
 * DETAILS
 * </p>
 *
 * @author Jan Friderici
 *         Date: 10.08.2008
 *         Time: 01:34:23
 */
public class CrawlerManager {



    private MetadataExtractor extractor;

    public CrawlerManager(MetadataExtractor extractor) {
        this.extractor = extractor;
    }


    public void crawl(CrawlJob job, CrawlJobResultHandler handler) {
        extractUrl(job.getUri(), job.getDepth(), handler);


    }

    /**
     * 
     * @param uri
     * @param depth
     * @param handler
     */
    private void extractUrl(String uri, int depth, CrawlJobResultHandler handler) {
        System.out.println("Crawling uri " + uri + " with " + extractor);
        MetadataExtractorResult extractorResult = extractor.extract(uri);
        if (extractorResult.getError() != null){
            handler.crawlFailed(extractorResult.getError());
        } else {
            RdfContainer metadataGraph = extractorResult.getMetadataGraph();
            handler.urlCrawled(metadataGraph, depth);
            if (depth > 0 ){
                Iterator<Statement> statementIterator = metadataGraph.match(null, RDF.TYPE, InformationObjectVoc.HardLink);
                while (statementIterator.hasNext()) {
                    Resource linkedUri = statementIterator.next().getSubject();
                    extractUrl(linkedUri.toString(), depth-1, handler);
                }
            } else {
                handler.crawlFinished();
            }
        }

    }
}