TextExtraction.java example

Explorer

WebGatherer---Scraper-and-Analyzer-master
- src
  - main
    - java
      - com
        rickdane
        springmodularizedproject
        api
        transport
        EmailTransport.java
        Rawscrapeddata.java
        ReceivedEmail.java
        Scraper.java
        TransportBase.java
        WebGathererJobJsonTransport.java
      - org
        Webgatherer
        Api
        Scraper
        ScraperFactory.java
        Common
        Properties
        PropertiesContainer.java
        Controller
        Api
        ApiCommunication.java
        BaseApiCommunication.java
        Base
        EntryBase.java
        Component
        ControllerFlow.java
        WorkflowControllerImpl_1.java
        EntityTransport
        EntryTransport.java
        Entry_ExampleMain.java
        Entry_ExampleRun_SearchScrape.java
        Entry_ExampleRun_WebPagesScrape.java
        Entry_ScraperGeneric.java
        Entry_ScraperIndeed.java
        CoreEngine
        Core
        ThreadCommunication
        FinalOutputContainer.java
        FinalOutputContainerImpl.java
        ThreadCommunication.java
        ThreadCommunicationBase.java
        ThreadCommunicationImpl.java
        Threadable
        Base
        BaseWebThread.java
        BaseWebThreadImpl.java
        DataInterpreatation
        DataInterpretor.java
        DataInterpretorImpl.java
        WebGather
        PageRetrieverThreadManager.java
        ThreadCommunicationPageRetriever.java
        ThreadRetrievePage.java
        WebGather.java
        WebGatherImpl.java
        DependencyInjection
        DependencyBindingModule.java
        Workflow
        WorfkflowWrapperImpl_Reflection.java
        WorkflowWrapper.java
        WorkflowWrapperImpl_External.java
        lib
        WebDriverFactory.java
        ExperimentalLabs
        DependencyInjection
        DependencyBindingModule.java
        EmailExtraction
        ExtractEmailsFromFileMain.java
        ExtractEmailsFromList.java
        PageRetrieverThreadManagerEmailExtraction.java
        ThreadRetrievePageEmailExtraction.java
        HtmlProcessing
        HtmlParser.java
        HtmlParserImpl.java
        Mail
        EmailSendReceive.java
        mainSendEmail.java
        Scraper
        Core
        PageRetrieverThreadManagerScraper.java
        ScraperBase.java
        Deprecated
        Entry_Scraper2.java
        PlacesScraper.java
        ScraperBaseStatic.java
        Generic
        ScraperGeneric.java
        ThreadRetrievePageGeneric.java
        Google
        GoogleExtractUrls.java
        googleTest.java
        Indeed
        ScraperIndeed.java
        ThreadRetrievePageIndeed.java
        Object
        ScraperBaseDepr.java
        ScraperBaseJavascript.java
        WebService
        WebServiceCaller.java
        Persistence
        InputOutput
        Persistence.java
        PersistenceImpl_WriteToFile.java
        ReadFromFileToList.java
        WriterOutputQueueToFile.java
        Utility
        RandomSelector.java
        ReadFiles.java
        Service
        WebServiceClient.java
        TextCleaner.java
        TextReformatter.java
        WorkflowExample
        DataHolders
        Container.java
        ContainerBase.java
        DataHolder.java
        DataHolderImpl.java
        DependencyInjection
        DependencyBindingModule.java
        Provider
        WorkflowProvider.java
        Status
        StatusIndicator.java
        Workflows
        Base
        Common
        WorkflowBase.java
        DataInterpetor
        EmailExtractor.java
        TextExtraction.java
        Workflow_DataInterpretorBase.java
        Implementations
        DataInterpetor
        Workflow_DataInterpretor_1.java
        Workflow_DataInterpretor_SearchResultsScrape.java
        WebGatherer
        EnumUrlRetrieveOptions.java
        Workflow_WebGather_1.java
        Workflow_WebSearch1.java
        Workflow_WebSearch2.java
        ardverk
        collection
        AbstractKeyAnalyzer.java
        AbstractPatriciaTrie.java
        AbstractTrie.java
        ByteArrayKeyAnalyzer.java
        ByteKeyAnalyzer.java
        CharArrayKeyAnalyzer.java
        CharacterKeyAnalyzer.java
        Cursor.java
        DefaultKeyAnalyzer.java
        IntegerKeyAnalyzer.java
        Key.java
        KeyAnalyzer.java
        LongKeyAnalyzer.java
        PatriciaTrie.java
        ShortKeyAnalyzer.java
        StringKeyAnalyzer.java
        Trie.java
        Tries.java

package org.Webgatherer.WorkflowExample.Workflows.Base.DataInterpetor;

import org.Webgatherer.WorkflowExample.Workflows.Base.DataInterpetor.Workflow_DataInterpretorBase;

import java.util.HashSet;
import java.util.LinkedList;
import java.util.Map;
import java.util.Vector;

/**
 * @author Rick Dane
 */
public class TextExtraction {
    private HashSet<String> ignoreSuffixes;
    private HashSet<String> negativeContains;

    public TextExtraction() {
        PrepareNegativeMatchLists();
    }

    private void PrepareNegativeMatchLists() {
        ignoreSuffixes = new HashSet<String>();
        ignoreSuffixes.add(".pdf");
        ignoreSuffixes.add(".txt");
        ignoreSuffixes.add(".zip");
        ignoreSuffixes.add(".js");
        ignoreSuffixes.add(".javascript");
        ignoreSuffixes.add(".css");
        ignoreSuffixes.add(".doc");
        ignoreSuffixes.add(".jpg");
        ignoreSuffixes.add(".gif");
        ignoreSuffixes.add(".png");
        ignoreSuffixes.add(".bmp");
        ignoreSuffixes.add(".xls");

        negativeContains = new HashSet<String>();
        negativeContains.add("@");
    }

    /**
     * Extracts links from a page that match one from the list passed in, sends to sendback object with specified internal label
     */
    public void extractLinksForSendbackThatMatchKeys(Workflow_DataInterpretorBase instance, LinkedList<String> tokens, String parsedHtml, String internalLabel, String curDomainName) {

        Map<String, String> links = instance.htmlParser.extractLinks(instance.curPageBaseDomainUrl, parsedHtml);

        for (Map.Entry<String, String> entry : links.entrySet()) {
            String curLinkLabel = entry.getKey();
            String url = entry.getValue();

            if (!url.toLowerCase().contains(curDomainName.toLowerCase())) {
                // it's not a link from the original site so we don't add it, TODO: may want to make this an optional parameter at some point
                continue;
            }

            boolean isMatch = false;
            for (String curToken : tokens) {
                if (curLinkLabel.toLowerCase().contains(curToken.toLowerCase()) || curLinkLabel.toLowerCase().contains(curToken.toLowerCase())) {
                    isMatch = true;
                    break;
                }
            }
            if (isMatch == false) {
                continue;
            }

            ifNotUsedAdd(instance, url, internalLabel, LinkMatchType.POSITIVE_MATCH);
        }
    }

    public enum LinkMatchType {
        POSITIVE_MATCH, NEGATIVE_MATCH;
    }

    //TODO This method was done hastily as its mostly copy pasted from the similar method above, refactor both so they use common private methods for shared logic
    public void extractAllLinksFromSameSite(Workflow_DataInterpretorBase instance, String parsedHtml, String internalLabel, String curDomainName, LinkMatchType linkMatchType) {

        Map<String, String> links = instance.htmlParser.extractLinks(instance.curPageBaseDomainUrl, parsedHtml);

        for (Map.Entry<String, String> entry : links.entrySet()) {
            String curLinkLabel = entry.getKey();
            String url = entry.getValue();

            if (!url.toLowerCase().contains(curDomainName.toLowerCase())) {
                // it's not a link from the original site so we don't add it, TODO: may want to make this an optional parameter at some point
                continue;
            }

            ifNotUsedAdd(instance, url, internalLabel, linkMatchType);

        }
    }

    private void ifNotUsedAdd(Workflow_DataInterpretorBase instance, String url, String internalLabel, LinkMatchType linkMatchType) {

        if (linkMatchType.equals(LinkMatchType.POSITIVE_MATCH)) {
            if (!isUrlValid(url)) {
                instance.negativeMatchUrlList.add(url);
            }
            if (!instance.trackSentBackLinks.contains(url) && !instance.negativeMatchUrlList.contains(url)) {
                String[] strHolder = {instance.curEntryKey, url, internalLabel, null};
                instance.threadCommunication.addToSendbackDataHolder(strHolder);
                instance.trackSentBackLinks.add(url);
            }
        } else if (linkMatchType.equals(LinkMatchType.NEGATIVE_MATCH)) {
            if (!instance.negativeMatchUrlList.contains(url) && !instance.trackSentBackLinks.contains(url)) {
                instance.negativeMatchUrlList.add(url);
            }
        }
    }

    public void extractEmailAddressesToDataHolder(Workflow_DataInterpretorBase instance, String parsedHtml, String internalLabel) {

        Map<String, String> links = instance.htmlParser.extractLinks(instance.curPageBaseUrl, parsedHtml);


    }

    /**
     * Runs a url through checks to determine if it appears to be a valid url for a web page
     *
     * @return
     */
    public boolean isUrlValid(String url) {
        for (String curIgnoreCheck : ignoreSuffixes) {
            if (url.endsWith(curIgnoreCheck)) {
                return false;
            }
        }
        for (String negativeMatch : negativeContains) {
            if (url.contains(negativeMatch)) {
                return false;
            }
        }
        return true;
    }
}