CommonCrawlIndex.java example

Explorer

aws-big-data-blog-master
- aws-blog-elasticsearch-cascading-commoncrawl
  - commoncrawl.cascading.elasticsearch
    - src
      - main
        java
        com
        amazonaws
        bigdatablog
        indexcommoncrawl
        CommonCrawlIndex.java
        ConfigReader.java
        Main.java
      - test
        java
        com
        amazonaws
        bigdatablog
        indexcommoncrawl
        Assert.java
        CommonCrawlIndexTest.java
- aws-blog-event-driven-batch-analytics
  - src
    - main
      - java
        com
        amazonaws
        bigdatablog
        edba
        LambdaContainer.java
        emr
        ProcessVendorTrasactions.java
- aws-blog-firehose-lambda
  - kinesisFirehose
    - src
      - main
        java
        com
        amazonaws
        proserv
        PopulateKinesisData.java
        SampleAWSCredentialProvider.java
        lambda
        KinesisToFirehose.java
- aws-blog-hbase-on-emr
  - hbase-connector
    - src
      - main
        java
        com
        amazonaws
        hbase
        connector
        EMRHBaseKinesisConnectorConfiguration.java
        HBaseEmitter.java
        HBaseExecutor.java
        HBasePipeline.java
        HBaseTransformer.java
        KinesisMessageModelHBaseTransformer.java
        kinesis
        BatchedStreamSource.java
        KinesisConnectorExecutor.java
        KinesisConnectorMetricsExecutor.java
        KinesisMessageModel.java
        StreamSource.java
        utils
        EMRUtils.java
        HBaseUtils.java
        KinesisUtils.java
        utils
        EmrHelper.java
- aws-blog-kinesis-beanstalk-workers
  - src
    - main
      - java
        MyRecordProcessor.java
        com
        amazonaws
        services
        kinesis
        InvalidConfigurationException.java
        ManagedClientProcessor.java
        ManagedClientProcessorFactory.java
        ManagedConsumer.java
        beanstalk
        connector
        KinesisWorkerServletInitiator.java
- aws-blog-kinesis-data-visualization
  - KinesisApplication
    - src
      - main
        java
        com
        amazonaws
        kinesis
        dataviz
        kinesisclient
        ConfigKeys.java
        Coordinate.java
        KinesisApplication.java
        KinesisRecordProcessor.java
        KinesisRecordProcessorFactory.java
  - TwitterProducer
    - src
      - main
        java
        com
        amazonaws
        kinesis
        dataviz
        producer
        Event.java
        Producer.java
        ProducerBase.java
        ProducerBuilder.java
        ProducerClient.java
        twitter
        TwitterProducer.java
- aws-blog-kinesis-producer-library
  - src
    - main
      - java
        com
        amazonaws
        services
        kinesis
        producer
        demo
        AbstractClickEventsToKinesis.java
        AdvancedKPLClickEventsToKinesis.java
        AggregatingClickEventsToKinesis.java
        BasicClickEventsToKinesis.java
        BatchedClickEventsToKinesis.java
        ClickEvent.java
        ClickEventsToKinesisTestDriver.java
        KPLClickEventsToKinesis.java
        MetricsEmittingBasicClickEventsToKinesis.java
        MultithreadedClickEventsToKinesis.java
        RecordBatcher.java
        RetryingBatchedClickEventsToKinesis.java
- aws-blog-kinesis-storm-clickstream-app
  - src
    - main
      - java
        KinesisStormClickstreamApp
        ConfigKeys.java
        CustomCredentialsProviderChain.java
        ParseReferrerBolt.java
        RollingCountBolt.java
        SampleTopology.java
- aws-blog-mirth-healthcare-hub
  - mirth-aws-dicom-app
    - src
      - main
        java
        org
        mirthblog
        dicom
        MDICOM.java
      - test
        java
        org
        mirthblog
        dicom
        AppTest.java
  - mirth-aws-sample-app
    - src
      - main
        java
        org
        mirth
        project
        MCAWS.java
      - test
        java
        org
        mirth
        project
        AppTest.java
- aws-blog-real-time-in-memory-oltp-and-analytics-with-apache-ignite
  - src
    - main
      - java
        com
        amazon
        dynamostreams
        clientlibrary
        AmazonDynamoDBStreamstoIgnite.java
        OrderData.java
        Properties.java
        StreamsRecordProcessor.java
        StreamsRecordProcessorFactory.java
- aws-blog-s3-index-with-lambda-ddb
  - s3-log-generator
    - src
      - main
        java
        com
        amazonaws
        bigdatablog
        s3index
        S3DataGenerator.java
        TruncateBucket.java
        Util.java
        VerifyIndex.java
- aws-blog-titan-graph-database
  - src
    - main
      - java
        com
        amazonaws
        bigdatablog
        titanrestaurants
        RestaurantFactory.java

package com.amazonaws.bigdatablog.indexcommoncrawl;

import cascading.flow.FlowDef;
import cascading.operation.regex.RegexGenerator;
import cascading.pipe.Each;
import cascading.pipe.Pipe;
//import cascading.scheme.local.TextLine;
import cascading.scheme.hadoop.TextLine;
import cascading.tap.Tap;
import cascading.tap.local.FileTap;
import cascading.tap.hadoop.Hfs;
import cascading.tuple.Fields;
import org.elasticsearch.hadoop.cascading.EsTap;
import java.util.Properties;

public class CommonCrawlIndex {

    public static FlowDef buildFlowDef(Properties properties){
        // create the Cascading "source" (input) tap to read the commonCrawl WAT file(s)
        Tap source=null;
        //check if we're running locally or on HDFS
        Boolean isDistributed =((properties.containsKey("platform")) && properties.getProperty("platform").toString().compareTo("DISTRIBUTED")==0);
                //(properties.getProperty("platform") == "DISTRIBUTED"));

        String inPath =  properties.getProperty("inPath");

        if (isDistributed){
                source = new Hfs(new cascading.scheme.hadoop.TextLine(new Fields("line")), inPath);
        }else {
            source = new FileTap(new cascading.scheme.local.TextLine(new Fields("line")), inPath);
        }

        // create the "sink" (output) tap that will export the data to Elasticsearch
        Tap sink = new EsTap(properties.getProperty("es.target.index"));

        //Build the Cascading Flow Definition
        return CommonCrawlIndex.createCommonCrawlFlowDef(source, sink);
    }

    public static FlowDef createCommonCrawlFlowDef(Tap source, Tap sink) {
        Pipe parsePipe = new Pipe( "exportCommonCrawlWATPipe" );

        //Add a Regular Expression to collect the envelope json field from each line in the file
        RegexGenerator splitter=new RegexGenerator(new Fields("json"),"^\\{\"Envelope\".*$");
        parsePipe = new Each( parsePipe, new Fields( "line" ), splitter, Fields.RESULTS );

        // connect the taps, pipes, etc., into a flow
        return FlowDef.flowDef()
                .addSource( parsePipe, source )
                .addTailSink( parsePipe, sink );
    }





}