Main.java example

Explorer

spring-hadoop-samples-old-master
- original-samples
  - batch-wordcount
    - src
      - test
        java
        org
        springframework
        data
        hadoop
        samples
        WordCountWorkflowTests.java
  - cascading
    - src
      - main
        java
        impatient
        Main.java
        org
        springframework
        data
        hadoop
        samples
        cascading
        Main.java
  - hbase-crud
    - src
      - main
        java
        org
        springframework
        data
        hadoop
        samples
        hbase
        HBaseAction.java
        Main.java
  - pig-scripting
    - src
      - main
        java
        org
        springframework
        data
        hadoop
        samples
        pig
        Main.java
  - wordcount
    - src
      - main
        java
        org
        springframework
        data
        hadoop
        samples
        wordcount
        Main.java
      - test
        java
        org
        springframework
        data
        hadoop
        samples
        WordCountWorkflowTests.java
- samples
  - hive
    - src
      - main
        java
        org
        springframework
        samples
        hadoop
        hive
        AnalysisService.java
        HiveApp.java
        HiveAppWithApacheLogs.java
        HiveClientCallback.java
        HiveJdbcApp.java
        HivePasswordRepository.java
        HiveTemplatePasswordRepository.java
        JdbcPasswordRepository.java
        PasswordRepository.java
  - mapreduce
    - src
      - main
        java
        org
        springframework
        samples
        hadoop
        mapreduce
        Wordcount.java
  - pig
    - src
      - main
        java
        org
        springframework
        samples
        hadoop
        pig
        PasswordRepository.java
        PasswordService.java
        PigApp.java
        PigAppWithApacheLogs.java
        PigAppWithRepository.java
        PigPasswordRepository.java
- server
  - src
    - main
      - java
        com
        oreilly
        springdata
        batch
        item
        AbstractHdfsItemWriter.java
        DatabaseSkipListener.java
        HdfsTextItemWriter.java
        MultiHdfsTextItemWriter.java
        ProductFieldSetMapper.java
        ProductJdbcItemWriter.java
        ProductProcessor.java
        SimpleAbstractHdfsItemWriter.java
        SimpleHdfsTextItemWriter.java
        file
        ProductFieldSetMapper.java
        hadoop
        filepolling
        CustomFileHandler.java
        FileExistsMode.java
        FilePolling.java
        FsShellWritingMessageHandler.java
        ftp
        CustomFileHandler.java
        FileExistsMode.java
        FsShellWritingMessageHandler.java
        Ftp.java
        streaming
        AbstractHdfsWriter.java
        ControlBusController.java
        CustomFileHandler.java
        FileExistsMode.java
        HdfsTextFileWriter.java
        HdfsTextFileWriterFactory.java
        HdfsWriter.java
        HdfsWriterFactory.java
        HdfsWritingMessageHandler.java
        Streaming.java
        org
        springframework
        data
        hadoop
        example
        domain
        Product.java
        ProductRowMapper.java
        jetty
        BatchAdminServer.java
        server
        SpringDataServer.java
        SpringDataServerManagement.java
        SpringDataServerOptions.java
        samples
        hadoop
        hive
        AnalysisService.java
        HiveClientCallback.java
        HivePasswordRepository.java
        HiveTemplatePasswordRepository.java
        JdbcPasswordRepository.java
        PasswordRepository.java
        pig
        PasswordRepository.java
        PasswordService.java
        PigAppWithRepository.java
        PigPasswordRepository.java
        runtime
        HiveApp.java
        HiveAppWithApacheLogs.java
        HiveJdbcApp.java
        Launcher.java
        PigApp.java
        PigAppWithApacheLogs.java
    - test
      - java
        com
        oreilly
        springdata
        hadoop
        streaming
        HdfsTextFileWriterIntegrationTests.java
        SyslogToHdfsIntegrationTests.java
- shell
  - src
    - main
      - java
        org
        springframework
        data
        hadoop
        admin
        cli
        commands
        BaseCommand.java
        ExecutionsCommand.java
        InfoCommand.java
        JobsCommand.java
        ProjectType.java
        PropertyUtil.java
        TargetCommand.java
        TemplateCommand.java
        WorkflowCommand.java
        shell
        AdminCommands.java
        BannerProvider.java
        CommandRunner.java
        Customizations.java
        HistoryFileNameProvider.java
        MBeanOps.java
        PromptProvider.java
        RuntimeCommands.java
        util
        CommonUtils.java
        JsonUtil.java
        Table.java
        TableHeader.java
        TableRow.java
        UiUtils.java

/*
 * Copyright (c) 2007-2012 Concurrent, Inc. All Rights Reserved.
 *
 * Project and contact information: http://www.cascading.org/
 *
 * This file is part of the Cascading project.
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

package impatient;

import java.util.Properties;

import cascading.flow.Flow;
import cascading.flow.FlowDef;
import cascading.flow.hadoop.HadoopFlowConnector;
import cascading.operation.aggregator.Count;
import cascading.operation.regex.RegexSplitGenerator;
import cascading.pipe.Each;
import cascading.pipe.Every;
import cascading.pipe.GroupBy;
import cascading.pipe.Pipe;
import cascading.property.AppProps;
import cascading.scheme.hadoop.TextDelimited;
import cascading.tap.Tap;
import cascading.tap.hadoop.Hfs;
import cascading.tuple.Fields;

//
// Modified Impatient Part 2 Main class
//
// Extracted the Flow setup into a separate method for reusability

public class
  Main
  {
  public static void
  main( String[] args )
   {
     String docPath = args[ 0 ];
	 String wcPath = args[ 1 ];

	 Properties properties = new Properties();
	 AppProps.setApplicationJarClass( properties, Main.class );
	 HadoopFlowConnector flowConnector = new HadoopFlowConnector( properties );

	 FlowDef flowDef = createFlowDef(docPath, wcPath);

	 // write a DOT file and run the flow
	 Flow wcFlow = flowConnector.connect( flowDef );
	 wcFlow.writeDOT( "dot/wc.dot" );
	 wcFlow.complete();
   }

  public static FlowDef
  createFlowDef( String docPath, String wcPath )
   {
    // create source and sink taps
    Tap docTap = new Hfs( new TextDelimited( true, "\t" ), docPath );
    Tap wcTap = new Hfs( new TextDelimited( true, "\t" ), wcPath );

    // specify a regex operation to split the "document" text lines into a token stream
    Fields token = new Fields( "token" );
    Fields text = new Fields( "text" );
    RegexSplitGenerator splitter = new RegexSplitGenerator( token, "[ \\[\\]\\(\\),.]" );
    // only returns "token"
    Pipe docPipe = new Each( "token", text, splitter, Fields.RESULTS );

    // determine the word counts
    Pipe wcPipe = new Pipe( "wc", docPipe );
    wcPipe = new GroupBy( wcPipe, token );
    wcPipe = new Every( wcPipe, Fields.ALL, new Count(), Fields.ALL );

    // connect the taps, pipes, etc., into a flow
    FlowDef flowDef = FlowDef.flowDef()
     .setName( "wc" )
     .addSource( docPipe, docTap )
     .addTailSink( wcPipe, wcTap );

    return flowDef;
    }
  }