Workflow_DataInterpretorBase.java example

Explorer

WebGatherer---Scraper-and-Analyzer-master
- src
  - main
    - java
      - com
        rickdane
        springmodularizedproject
        api
        transport
        EmailTransport.java
        Rawscrapeddata.java
        ReceivedEmail.java
        Scraper.java
        TransportBase.java
        WebGathererJobJsonTransport.java
      - org
        Webgatherer
        Api
        Scraper
        ScraperFactory.java
        Common
        Properties
        PropertiesContainer.java
        Controller
        Api
        ApiCommunication.java
        BaseApiCommunication.java
        Base
        EntryBase.java
        Component
        ControllerFlow.java
        WorkflowControllerImpl_1.java
        EntityTransport
        EntryTransport.java
        Entry_ExampleMain.java
        Entry_ExampleRun_SearchScrape.java
        Entry_ExampleRun_WebPagesScrape.java
        Entry_ScraperGeneric.java
        Entry_ScraperIndeed.java
        CoreEngine
        Core
        ThreadCommunication
        FinalOutputContainer.java
        FinalOutputContainerImpl.java
        ThreadCommunication.java
        ThreadCommunicationBase.java
        ThreadCommunicationImpl.java
        Threadable
        Base
        BaseWebThread.java
        BaseWebThreadImpl.java
        DataInterpreatation
        DataInterpretor.java
        DataInterpretorImpl.java
        WebGather
        PageRetrieverThreadManager.java
        ThreadCommunicationPageRetriever.java
        ThreadRetrievePage.java
        WebGather.java
        WebGatherImpl.java
        DependencyInjection
        DependencyBindingModule.java
        Workflow
        WorfkflowWrapperImpl_Reflection.java
        WorkflowWrapper.java
        WorkflowWrapperImpl_External.java
        lib
        WebDriverFactory.java
        ExperimentalLabs
        DependencyInjection
        DependencyBindingModule.java
        EmailExtraction
        ExtractEmailsFromFileMain.java
        ExtractEmailsFromList.java
        PageRetrieverThreadManagerEmailExtraction.java
        ThreadRetrievePageEmailExtraction.java
        HtmlProcessing
        HtmlParser.java
        HtmlParserImpl.java
        Mail
        EmailSendReceive.java
        mainSendEmail.java
        Scraper
        Core
        PageRetrieverThreadManagerScraper.java
        ScraperBase.java
        Deprecated
        Entry_Scraper2.java
        PlacesScraper.java
        ScraperBaseStatic.java
        Generic
        ScraperGeneric.java
        ThreadRetrievePageGeneric.java
        Google
        GoogleExtractUrls.java
        googleTest.java
        Indeed
        ScraperIndeed.java
        ThreadRetrievePageIndeed.java
        Object
        ScraperBaseDepr.java
        ScraperBaseJavascript.java
        WebService
        WebServiceCaller.java
        Persistence
        InputOutput
        Persistence.java
        PersistenceImpl_WriteToFile.java
        ReadFromFileToList.java
        WriterOutputQueueToFile.java
        Utility
        RandomSelector.java
        ReadFiles.java
        Service
        WebServiceClient.java
        TextCleaner.java
        TextReformatter.java
        WorkflowExample
        DataHolders
        Container.java
        ContainerBase.java
        DataHolder.java
        DataHolderImpl.java
        DependencyInjection
        DependencyBindingModule.java
        Provider
        WorkflowProvider.java
        Status
        StatusIndicator.java
        Workflows
        Base
        Common
        WorkflowBase.java
        DataInterpetor
        EmailExtractor.java
        TextExtraction.java
        Workflow_DataInterpretorBase.java
        Implementations
        DataInterpetor
        Workflow_DataInterpretor_1.java
        Workflow_DataInterpretor_SearchResultsScrape.java
        WebGatherer
        EnumUrlRetrieveOptions.java
        Workflow_WebGather_1.java
        Workflow_WebSearch1.java
        Workflow_WebSearch2.java
        ardverk
        collection
        AbstractKeyAnalyzer.java
        AbstractPatriciaTrie.java
        AbstractTrie.java
        ByteArrayKeyAnalyzer.java
        ByteKeyAnalyzer.java
        CharArrayKeyAnalyzer.java
        CharacterKeyAnalyzer.java
        Cursor.java
        DefaultKeyAnalyzer.java
        IntegerKeyAnalyzer.java
        Key.java
        KeyAnalyzer.java
        LongKeyAnalyzer.java
        PatriciaTrie.java
        ShortKeyAnalyzer.java
        StringKeyAnalyzer.java
        Trie.java
        Tries.java

package org.Webgatherer.WorkflowExample.Workflows.Base.DataInterpetor;

import com.google.inject.Injector;
import org.Webgatherer.CoreEngine.Core.ThreadCommunication.FinalOutputContainer;
import org.Webgatherer.CoreEngine.Core.ThreadCommunication.ThreadCommunication;
import org.Webgatherer.CoreEngine.Core.ThreadCommunication.ThreadCommunicationBase;
import org.Webgatherer.ExperimentalLabs.HtmlProcessing.HtmlParser;
import org.Webgatherer.WorkflowExample.DataHolders.ContainerBase;
import org.Webgatherer.WorkflowExample.DataHolders.DataHolder;
import org.Webgatherer.WorkflowExample.DataHolders.DataHolderImpl;
import org.Webgatherer.WorkflowExample.Status.StatusIndicator;
import org.Webgatherer.WorkflowExample.Workflows.Base.Common.WorkflowBase;
import org.ardverk.collection.PatriciaTrie;
import org.ardverk.collection.StringKeyAnalyzer;
import org.ardverk.collection.Trie;

import java.util.ArrayList;
import java.util.List;
import java.util.Map;

/**
 * @author Rick Dane
 */
public abstract class Workflow_DataInterpretorBase extends WorkflowBase {

    protected Trie<String, DataHolder> trie = new PatriciaTrie<String, DataHolder>(StringKeyAnalyzer.INSTANCE);
    protected List<String> negativeMatchUrlList = new ArrayList<String>();
    protected DataHolder dataHolder;
    protected String curEntryKey;
    protected String curPageBaseUrl;
    protected String curCategory;
    protected String curScrapedPage;
    protected String curPageBaseDomainUrl;

    protected FinalOutputContainer finalOutputContainer;
    protected ThreadCommunication threadCommunication;

    protected List<String> trackSentBackLinks = new ArrayList<String>();
    protected HtmlParser htmlParser;
    protected String curWebPageText;

    protected int containerDefaultMaxEntries;
    protected int containerDefaultMaxAttempts;

    /**
     * This is meant to be called each time the runWorfklow() method is called, it combines functionality that different workflows
     * will need to avoid having to insert boilerplate into each custom runWorkflow() method
     *
     * @param workflowParams
     */
    protected void runWorkflowSetup(Map<String, Object> workflowParams) {

        containerDefaultMaxEntries = Integer.parseInt(properties.getProperty("workflow_DataInterpretorBase_containerDefaultMaxEntries"));
        containerDefaultMaxAttempts = Integer.parseInt(properties.getProperty("workflow_DataInterpretorBase_containerDefaultMaxAttempts"));

        //TODO refactor this as it doesn't need to be called with each workflow iteration
        setUp(workflowParams);

        String[] curEntry = threadCommunication.getFromPageQueue();

        curEntryKey = curEntry[ThreadCommunicationBase.PageQueueEntries.KEY.ordinal()];
        curScrapedPage = curEntry[ThreadCommunicationBase.PageQueueEntries.SCRAPED_PAGE.ordinal()];
        curPageBaseUrl = curEntry[ThreadCommunicationBase.PageQueueEntries.BASE_URL.ordinal()];
        curCategory = curEntry[ThreadCommunicationBase.PageQueueEntries.CATEGORY.ordinal()];

        curWebPageText = htmlParser.getText(curScrapedPage);

        curPageBaseDomainUrl = prepareBaseDomainUrl(curEntryKey);
    }

    /**
     * The url being passed in should not have http:// or anything prefixing it already so we just need to check for a backslash and remove
     * it and anything trailing it
     *
     * @param url
     * @return
     */
    private String prepareBaseDomainUrl(String url) {
        int index = url.indexOf("/");

        if (index != -1) {
            url = url.substring(0, index);
        }
        return "http://" + url;
    }


    public Workflow_DataInterpretorBase(Injector injector) {
        super(injector);
    }

    protected void setUp(Map<String, Object> workflowParams) {
        threadCommunication = (ThreadCommunication) workflowParams.get("threadCommunication");
        finalOutputContainer = (FinalOutputContainer) workflowParams.get("finalOutputContainer");

    }

    protected void addPageToDataHolder(String label, String parsedHtml) {
        if (dataHolder != null && dataHolder.checkIfContainerAvailable(label) != StatusIndicator.AVAILABLE) {
            return;
        }

        dataHolder = trie.get(curEntryKey);
        if (dataHolder == null) {
            dataHolder = new DataHolderImpl();


            dataHolder.createContainer(label, containerDefaultMaxEntries, containerDefaultMaxAttempts);
            trie.put(curEntryKey, dataHolder);
        }
        StatusIndicator status = dataHolder.checkIfContainerAvailable(label);
        if (status == StatusIndicator.DOESNOTEXIST) {
            dataHolder.createContainer(label, containerDefaultMaxEntries, containerDefaultMaxAttempts);
        }
        dataHolder.addEntryToContainer(label, parsedHtml);
    }

    @Override
    public void destroyCleanly() {
        dataHolder.destroyRetrieveFinalData();
        addToFinalOutputContainer();
    }

    protected boolean determineIfPageContains(String[] mustContainAtLeastOne, String[] mustContainAllEntries, String searchInText) {

        searchInText = searchInText.toLowerCase();

        for (String curEntry : mustContainAllEntries) {
            if (!searchInText.contains(curEntry.toLowerCase())) {
                return false;
            }
        }

        for (String curEntry : mustContainAtLeastOne) {
            if (searchInText.contains(curEntry.toLowerCase())) {
                return true;
            }
        }
        return true;
    }

    protected void addToFinalOutputContainer() {
        while (!dataHolder.isFinishedContainerQueueEmpty()) {
            ContainerBase cb = dataHolder.pullFromFinishedContainerQueue();
            finalOutputContainer.addToFinalOutputContainer(curEntryKey + "." + cb.getIdentifier(), cb);
        }
    }
}