Workflow_DataInterpretor

Explorer

WebGatherer---Scraper-and-Analyzer-master
- src
  - main
    - java
      - com
        rickdane
        springmodularizedproject
        api
        transport
        EmailTransport.java
        Rawscrapeddata.java
        ReceivedEmail.java
        Scraper.java
        TransportBase.java
        WebGathererJobJsonTransport.java
      - org
        Webgatherer
        Api
        Scraper
        ScraperFactory.java
        Common
        Properties
        PropertiesContainer.java
        Controller
        Api
        ApiCommunication.java
        BaseApiCommunication.java
        Base
        EntryBase.java
        Component
        ControllerFlow.java
        WorkflowControllerImpl_1.java
        EntityTransport
        EntryTransport.java
        Entry_ExampleMain.java
        Entry_ExampleRun_SearchScrape.java
        Entry_ExampleRun_WebPagesScrape.java
        Entry_ScraperGeneric.java
        Entry_ScraperIndeed.java
        CoreEngine
        Core
        ThreadCommunication
        FinalOutputContainer.java
        FinalOutputContainerImpl.java
        ThreadCommunication.java
        ThreadCommunicationBase.java
        ThreadCommunicationImpl.java
        Threadable
        Base
        BaseWebThread.java
        BaseWebThreadImpl.java
        DataInterpreatation
        DataInterpretor.java
        DataInterpretorImpl.java
        WebGather
        PageRetrieverThreadManager.java
        ThreadCommunicationPageRetriever.java
        ThreadRetrievePage.java
        WebGather.java
        WebGatherImpl.java
        DependencyInjection
        DependencyBindingModule.java
        Workflow
        WorfkflowWrapperImpl_Reflection.java
        WorkflowWrapper.java
        WorkflowWrapperImpl_External.java
        lib
        WebDriverFactory.java
        ExperimentalLabs
        DependencyInjection
        DependencyBindingModule.java
        EmailExtraction
        ExtractEmailsFromFileMain.java
        ExtractEmailsFromList.java
        PageRetrieverThreadManagerEmailExtraction.java
        ThreadRetrievePageEmailExtraction.java
        HtmlProcessing
        HtmlParser.java
        HtmlParserImpl.java
        Mail
        EmailSendReceive.java
        mainSendEmail.java
        Scraper
        Core
        PageRetrieverThreadManagerScraper.java
        ScraperBase.java
        Deprecated
        Entry_Scraper2.java
        PlacesScraper.java
        ScraperBaseStatic.java
        Generic
        ScraperGeneric.java
        ThreadRetrievePageGeneric.java
        Google
        GoogleExtractUrls.java
        googleTest.java
        Indeed
        ScraperIndeed.java
        ThreadRetrievePageIndeed.java
        Object
        ScraperBaseDepr.java
        ScraperBaseJavascript.java
        WebService
        WebServiceCaller.java
        Persistence
        InputOutput
        Persistence.java
        PersistenceImpl_WriteToFile.java
        ReadFromFileToList.java
        WriterOutputQueueToFile.java
        Utility
        RandomSelector.java
        ReadFiles.java
        Service
        WebServiceClient.java
        TextCleaner.java
        TextReformatter.java
        WorkflowExample
        DataHolders
        Container.java
        ContainerBase.java
        DataHolder.java
        DataHolderImpl.java
        DependencyInjection
        DependencyBindingModule.java
        Provider
        WorkflowProvider.java
        Status
        StatusIndicator.java
        Workflows
        Base
        Common
        WorkflowBase.java
        DataInterpetor
        EmailExtractor.java
        TextExtraction.java
        Workflow_DataInterpretorBase.java
        Implementations
        DataInterpetor
        Workflow_DataInterpretor_1.java
        Workflow_DataInterpretor_SearchResultsScrape.java
        WebGatherer
        EnumUrlRetrieveOptions.java
        Workflow_WebGather_1.java
        Workflow_WebSearch1.java
        Workflow_WebSearch2.java
        ardverk
        collection
        AbstractKeyAnalyzer.java
        AbstractPatriciaTrie.java
        AbstractTrie.java
        ByteArrayKeyAnalyzer.java
        ByteKeyAnalyzer.java
        CharArrayKeyAnalyzer.java
        CharacterKeyAnalyzer.java
        Cursor.java
        DefaultKeyAnalyzer.java
        IntegerKeyAnalyzer.java
        Key.java
        KeyAnalyzer.java
        LongKeyAnalyzer.java
        PatriciaTrie.java
        ShortKeyAnalyzer.java
        StringKeyAnalyzer.java
        Trie.java
        Tries.java

package org.Webgatherer.WorkflowExample.Workflows.Implementations.DataInterpetor;

import com.google.inject.Injector;
import org.Webgatherer.ExperimentalLabs.HtmlProcessing.HtmlParserImpl;
import org.Webgatherer.WorkflowExample.Workflows.Base.DataInterpetor.TextExtraction;
import org.Webgatherer.WorkflowExample.Workflows.Base.DataInterpetor.Workflow_DataInterpretorBase;
import org.htmlcleaner.HtmlCleaner;

import java.util.LinkedList;
import java.util.Map;

/**
 * @author Rick Dane
 */
public final class Workflow_DataInterpretor_1 extends Workflow_DataInterpretorBase {

    private TextExtraction textExtraction;

    protected int count = 1;

    public Workflow_DataInterpretor_1(Injector injector) {
        super(injector);
        htmlParser = new HtmlParserImpl(htmlCleaner);
        textExtraction = injector.getInstance(TextExtraction.class);
        htmlCleanerProvider = injector.getProvider(HtmlCleaner.class);

    }


    @Override
    public void runWorkflow(Map<String, Object> workflowParams) {

        System.out.print(count + ", ");
        count++;

        runWorkflowSetup(workflowParams);

        if (curScrapedPage != null) {

            String[] checkFor1 = {"career", "job", "employment", "work"};
            checkForMatchesToSendBackLink(checkFor1, "careers");

            String[] checkFor3 = {"about", "info"};
            checkForMatchesToSendBackLink(checkFor3, "aboutus");

            String[] checkFor4 = {"site map"};
            checkForMatchesToSendBackLink(checkFor4, "sitemap");

            if (curCategory != null && (curCategory.equals("aboutus") || curCategory.equals("sitemap"))) {
                checkForMatchesToSendBackLink(checkFor1, "careers");
            }

            if (curCategory == null) {
                //add negative matches from the initial page, to be used to determine unique links on specific pages later
                textExtraction.extractAllLinksFromSameSite(this, curScrapedPage, "careers", curPageBaseDomainUrl, TextExtraction.LinkMatchType.NEGATIVE_MATCH);
            }
        }

        dataHolder = trie.get(curEntryKey);

        if (curCategory != null && curCategory.equals("aboutus")) {
            addPageToDataHolder("aboutus", curPageBaseUrl);
        }

        if (curCategory != null && curCategory.equals("careers")) {
            textExtraction.extractAllLinksFromSameSite(this, curScrapedPage, "careers", curPageBaseDomainUrl, TextExtraction.LinkMatchType.POSITIVE_MATCH);

            String[] mustContainAtLeastOne = {"developer", "engineer", "programmer"};
            String[] mustContainAllEntries = {"java", "software"};

            boolean isMatch = determineIfPageContains(mustContainAtLeastOne, mustContainAllEntries, curWebPageText);
            if (isMatch) {
                addPageToDataHolder("careers", curPageBaseUrl);
            }
        }

        //move any finished containers to the finished queue
        if (dataHolder != null && !dataHolder.isFinishedContainerQueueEmpty()) {
            addToFinalOutputContainer();
        }
    }

    protected void checkForMatchesToSendBackLink(String[] matches, String label) {
        LinkedList<String> tokenstoCheckFor = new LinkedList<String>();
        for (String curMatch : matches) {
            tokenstoCheckFor.add(curMatch);
        }

        textExtraction.extractLinksForSendbackThatMatchKeys(this, tokenstoCheckFor, curScrapedPage, label, curPageBaseDomainUrl);
    }

    @Override
    public void destroyCleanly() {
        while (!threadCommunication.isPageQueueEmpty()) {
            try {
                Thread.sleep(2000);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
        dataHolder.destroyRetrieveFinalData();
        addToFinalOutputContainer();
    }
}