ScraperGeneric.java example

Explorer

WebGatherer---Scraper-and-Analyzer-master
- src
  - main
    - java
      - com
        rickdane
        springmodularizedproject
        api
        transport
        EmailTransport.java
        Rawscrapeddata.java
        ReceivedEmail.java
        Scraper.java
        TransportBase.java
        WebGathererJobJsonTransport.java
      - org
        Webgatherer
        Api
        Scraper
        ScraperFactory.java
        Common
        Properties
        PropertiesContainer.java
        Controller
        Api
        ApiCommunication.java
        BaseApiCommunication.java
        Base
        EntryBase.java
        Component
        ControllerFlow.java
        WorkflowControllerImpl_1.java
        EntityTransport
        EntryTransport.java
        Entry_ExampleMain.java
        Entry_ExampleRun_SearchScrape.java
        Entry_ExampleRun_WebPagesScrape.java
        Entry_ScraperGeneric.java
        Entry_ScraperIndeed.java
        CoreEngine
        Core
        ThreadCommunication
        FinalOutputContainer.java
        FinalOutputContainerImpl.java
        ThreadCommunication.java
        ThreadCommunicationBase.java
        ThreadCommunicationImpl.java
        Threadable
        Base
        BaseWebThread.java
        BaseWebThreadImpl.java
        DataInterpreatation
        DataInterpretor.java
        DataInterpretorImpl.java
        WebGather
        PageRetrieverThreadManager.java
        ThreadCommunicationPageRetriever.java
        ThreadRetrievePage.java
        WebGather.java
        WebGatherImpl.java
        DependencyInjection
        DependencyBindingModule.java
        Workflow
        WorfkflowWrapperImpl_Reflection.java
        WorkflowWrapper.java
        WorkflowWrapperImpl_External.java
        lib
        WebDriverFactory.java
        ExperimentalLabs
        DependencyInjection
        DependencyBindingModule.java
        EmailExtraction
        ExtractEmailsFromFileMain.java
        ExtractEmailsFromList.java
        PageRetrieverThreadManagerEmailExtraction.java
        ThreadRetrievePageEmailExtraction.java
        HtmlProcessing
        HtmlParser.java
        HtmlParserImpl.java
        Mail
        EmailSendReceive.java
        mainSendEmail.java
        Scraper
        Core
        PageRetrieverThreadManagerScraper.java
        ScraperBase.java
        Deprecated
        Entry_Scraper2.java
        PlacesScraper.java
        ScraperBaseStatic.java
        Generic
        ScraperGeneric.java
        ThreadRetrievePageGeneric.java
        Google
        GoogleExtractUrls.java
        googleTest.java
        Indeed
        ScraperIndeed.java
        ThreadRetrievePageIndeed.java
        Object
        ScraperBaseDepr.java
        ScraperBaseJavascript.java
        WebService
        WebServiceCaller.java
        Persistence
        InputOutput
        Persistence.java
        PersistenceImpl_WriteToFile.java
        ReadFromFileToList.java
        WriterOutputQueueToFile.java
        Utility
        RandomSelector.java
        ReadFiles.java
        Service
        WebServiceClient.java
        TextCleaner.java
        TextReformatter.java
        WorkflowExample
        DataHolders
        Container.java
        ContainerBase.java
        DataHolder.java
        DataHolderImpl.java
        DependencyInjection
        DependencyBindingModule.java
        Provider
        WorkflowProvider.java
        Status
        StatusIndicator.java
        Workflows
        Base
        Common
        WorkflowBase.java
        DataInterpetor
        EmailExtractor.java
        TextExtraction.java
        Workflow_DataInterpretorBase.java
        Implementations
        DataInterpetor
        Workflow_DataInterpretor_1.java
        Workflow_DataInterpretor_SearchResultsScrape.java
        WebGatherer
        EnumUrlRetrieveOptions.java
        Workflow_WebGather_1.java
        Workflow_WebSearch1.java
        Workflow_WebSearch2.java
        ardverk
        collection
        AbstractKeyAnalyzer.java
        AbstractPatriciaTrie.java
        AbstractTrie.java
        ByteArrayKeyAnalyzer.java
        ByteKeyAnalyzer.java
        CharArrayKeyAnalyzer.java
        CharacterKeyAnalyzer.java
        Cursor.java
        DefaultKeyAnalyzer.java
        IntegerKeyAnalyzer.java
        Key.java
        KeyAnalyzer.java
        LongKeyAnalyzer.java
        PatriciaTrie.java
        ShortKeyAnalyzer.java
        StringKeyAnalyzer.java
        Trie.java
        Tries.java

package org.Webgatherer.ExperimentalLabs.Scraper.Generic;

import com.google.inject.Inject;
import org.Webgatherer.CoreEngine.Core.ThreadCommunication.ThreadCommunication;
import org.Webgatherer.CoreEngine.Core.ThreadCommunication.ThreadCommunicationBase;
import org.Webgatherer.ExperimentalLabs.HtmlProcessing.HtmlParser;
import org.Webgatherer.ExperimentalLabs.Scraper.Core.PageRetrieverThreadManagerScraper;
import org.Webgatherer.ExperimentalLabs.Scraper.Core.ScraperBase;

import java.util.Map;
import java.util.Queue;
import java.util.concurrent.ConcurrentLinkedQueue;

/**
 * @author Rick Dane
 */
public class ScraperGeneric extends ScraperBase {

    //protected String urlPrefix = "http://sfbay.craigslist.org/search/?areaID=1&catAbb=jjj&query=";
    protected String urlPrefix;
    protected String urlPostfix;
    protected String urlPatternWildcard = "#";

    protected HtmlParser htmlParser;
    //protected String baseDomainName = "http://craigslist.org";
    protected String baseDomainName;
    protected int pageIncrementAmnt;


    @Inject
    public ScraperGeneric(PageRetrieverThreadManagerScraper pageRetrieverThreadManager, HtmlParser htmlParser) {
        super(pageRetrieverThreadManager);
        this.htmlParser = htmlParser;

    }

    @Override
    public void configure(String urlPrefix, String urlPostfix, String baseDomainName, int pageIncrementAmnt) {
        this.baseDomainName = baseDomainName;
        this.urlPostfix = urlPostfix;
        this.urlPrefix = urlPrefix;
        this.pageIncrementAmnt = pageIncrementAmnt;
    }


    private String prepareUrlString(String searchStr, int pgNum) {
        StringBuilder strBld = new StringBuilder();
        strBld.append(urlPrefix);
        strBld.append(searchStr);
        strBld.append(urlPostfix);
        String retStr = strBld.toString().replace(urlPatternWildcard, String.valueOf(pgNum));
        return retStr;
    }

    /**
     * This is for pages where the links are right on the page, no cleverness is required to get them, such as using JavaScript, so we
     * are cutting out steps that would happen in another scraper, such as the indeed scraper, for example
     *
     * @param i
     * @param threadCommunication
     * @param searchString
     */
    @Override
    protected void customRunActions(int i, ThreadCommunication threadCommunication, String searchString) {
        int pgNum = i * pageIncrementAmnt;

        String urlPrepared = prepareUrlString(searchString, pgNum);

        driver.get(urlPrepared);

        String pageSource = driver.getPageSource();

        Queue<String[]> queue = new ConcurrentLinkedQueue<String[]>();


        Map<String, String> links = htmlParser.extractLinks(baseDomainName, pageSource);

        for (Map.Entry<String, String> curEntry : links.entrySet()) {
            String[] outputEntry = new String[PageRetrieverThreadManagerScraper.sizeOfStringArrayEnum];
            outputEntry[ThreadCommunicationBase.PageQueueEntries.CUSTOM_RET_VALUE.ordinal()] = curEntry.getValue();
            threadCommunication.addToOutputDataHolder(outputEntry);
        }

        i++;
    }


    protected String parseUrl(String inputUrl) {
        return inputUrl;
    }

}