ExerciseHadoopIO.java example

Explorer

euphoria-master
- benchmarks
  - data-model
    - src
      - main
        java
        cz
        seznam
        euphoria
        benchmarks
        datamodel
        Benchmarks.java
        SearchEventsParser.java
        windowing
        Time.java
        TimeSliding.java
        Windowing.java
  - euphoria
    - euphoria-common
      - src
        main
        java
        cz
        seznam
        euphoria
        benchmarks
        euphoria
        common
        trends
        EuphoriaTrends.java
        ExecutorFactory.java
        Parameters.java
        Util.java
    - euphoria-flink
      - src
        main
        java
        cz
        seznam
        euphoria
        benchmarks
        euphoria
        flink
        EuphoriaFlinkTrends.java
        test
        java
        cz
        seznam
        euphoria
        benchmarks
        euphoria
        flink
        RunEuphoriaFlinkTrends.java
    - euphoria-spark
      - src
        main
        java
        cz
        seznam
        euphoria
        benchmarks
        euphoria
        spark
        EuphoriaSparkTrends.java
  - native-beam
    - native-beam-common
      - src
        main
        java
        cz
        seznam
        euphoria
        benchmarks
        beam
        BeamTrends.java
        Parameters.java
        StdoutSink.java
        Util.java
    - native-beam-flink
      - src
        main
        java
        cz
        seznam
        euphoria
        benchmarks
        beam
        BeamTrendsFlink.java
    - native-beam-spark
      - src
        main
        java
        cz
        seznam
        euphoria
        benchmarks
        beam
        BeamSparkRunnerRegistrator.java
        BeamTrendsSpark.java
        StatelessJavaSerializer.java
  - native-flink
    - src
      - main
        java
        cz
        seznam
        euphoria
        benchmarks
        flink
        BatchTrendsFlink.java
        Parameters.java
        StreamTrendsFlink.java
        Util.java
      - test
        java
        cz
        seznam
        euphoria
        benchmarks
        flink
        RunBatchTrends.java
        RunStreamTrends.java
  - native-spark
    - src
      - main
        java
        cz
        seznam
        euphoria
        benchmarks
        spark
        BatchTrendsSpark.java
        Pair.java
        Parameters.java
        Util.java
      - test
        java
        cz
        seznam
        euphoria
        testapps
        benchmark
        spark
        RunBatchTrends.java
- euphoria-core
  - src
    - main
      - java
        cz
        seznam
        euphoria
        core
        annotation
        operator
        Basic.java
        Derived.java
        Recommended.java
        StateComplexity.java
        stability
        Experimental.java
        client
        dataset
        Dataset.java
        Datasets.java
        InputDataset.java
        OutputDataset.java
        partitioning
        DefaultPartitioner.java
        HashPartitioner.java
        HashPartitioning.java
        Partitioner.java
        Partitioning.java
        RangePartitioner.java
        RangePartitioning.java
        windowing
        Count.java
        GlobalWindowing.java
        MergingWindowing.java
        Session.java
        Time.java
        TimeInterval.java
        TimeSliding.java
        TimedWindow.java
        Window.java
        WindowedElement.java
        Windowing.java
        flow
        Flow.java
        Util.java
        functional
        BinaryFunction.java
        BinaryFunctor.java
        CombinableBinaryFunction.java
        CombinableReduceFunction.java
        CompositeUnaryFunction.java
        ReduceFunction.java
        ReduceFunctor.java
        SameArgsBinaryFunction.java
        TernaryFunction.java
        UnaryFunction.java
        UnaryFunctor.java
        UnaryPredicate.java
        VoidFunction.java
        graph
        DAG.java
        Node.java
        io
        Context.java
        DataSink.java
        DataSinkFactory.java
        DataSource.java
        DataSourceFactory.java
        IORegistry.java
        ListDataSink.java
        ListDataSource.java
        Partition.java
        Reader.java
        SchemeBasedIORegistry.java
        StdoutSink.java
        VoidSink.java
        Writer.java
        lib
        Split.java
        operator
        AssignEventTime.java
        Builders.java
        CountByKey.java
        DefaultPartitioning.java
        Distinct.java
        ElementWiseOperator.java
        ExtractEventTime.java
        Filter.java
        FlatMap.java
        Join.java
        MapElements.java
        Operator.java
        OptionalMethodBuilder.java
        PartitioningAware.java
        ReduceByKey.java
        ReduceStateByKey.java
        ReduceWindow.java
        Repartition.java
        SingleInputOperator.java
        Sort.java
        StateAware.java
        StateAwareWindowWiseOperator.java
        StateAwareWindowWiseSingleInputOperator.java
        StateSupport.java
        SumByKey.java
        TopPerKey.java
        Union.java
        WindowAware.java
        WindowWiseOperator.java
        WindowingRequiredException.java
        state
        ListStorage.java
        ListStorageDescriptor.java
        MergingStorageDescriptor.java
        State.java
        StateFactory.java
        StateMerger.java
        Storage.java
        StorageDescriptor.java
        StorageProvider.java
        ValueStorage.java
        ValueStorageDescriptor.java
        triggers
        AfterFirstCompositeTrigger.java
        CountTrigger.java
        NoopTrigger.java
        PeriodicTimeTrigger.java
        TimeTrigger.java
        Trigger.java
        TriggerContext.java
        util
        Either.java
        Max.java
        Pair.java
        Sums.java
        Triple.java
        executor
        Executor.java
        FlowUnfolder.java
        FlowValidator.java
        greduce
        GroupReducer.java
        TimerSupport.java
        TriggerStorage.java
        storage
        FsSpillingListStorage.java
        SerializerFactory.java
        util
        SingleValueContext.java
        time
        Scheduler.java
        TimeProvider.java
        TimeProviderAware.java
        TimeProviders.java
        TimerScheduler.java
        util
        InstanceUtils.java
        Settings.java
        URIParams.java
        URIUtil.java
    - test
      - java
        cz
        seznam
        euphoria
        core
        client
        dataset
        windowing
        SessionTest.java
        TimeSlidingTest.java
        TimeTest.java
        TimestampedElement.java
        WindowingTest.java
        flow
        TestFlow.java
        graph
        DAGTest.java
        io
        EmptyReader.java
        ListDataSinkTest.java
        MockBatchDataSourceFactory.java
        MockStreamDataSourceFactory.java
        lib
        SplitTest.java
        operator
        CountByKeyTest.java
        DistinctTest.java
        FilterTest.java
        FlatMapTest.java
        JoinTest.java
        MapElementsTest.java
        ReduceByKeyTest.java
        ReduceStateByKeyTest.java
        ReduceWindowTest.java
        RepartitionTest.java
        SortTest.java
        SumByKeyTest.java
        TopPerKeyTest.java
        UnionTest.java
        Util.java
        executor
        FlowUnfolderTest.java
        storage
        FsSpillingListStorageTest.java
        JavaSerializationFactory.java
        time
        TimeProvidersTest.java
        util
        SettingsTest.java
- euphoria-examples
  - src
    - main
      - java
        cz
        seznam
        euphoria
        examples
        Executors.java
        wordcount
        AccessLogCount.java
        SimpleWordCount.java
- euphoria-flink
  - src
    - main
      - java
        cz
        seznam
        euphoria
        flink
        ExecutionEnvironment.java
        ExecutorContext.java
        FlinkExecutor.java
        FlinkOperator.java
        FlowOptimizer.java
        FlowTranslator.java
        OperatorTranslator.java
        TestFlinkExecutor.java
        Utils.java
        batch
        AttachedWindowing.java
        BatchElement.java
        BatchExecutorContext.java
        BatchFlowTranslator.java
        BatchOperatorTranslator.java
        BatchStateStorageProvider.java
        BatchUnaryFunctorWrapper.java
        FlatMapTranslator.java
        FlinkSerializerFactory.java
        InputTranslator.java
        ReduceByKeyTranslator.java
        ReduceStateByKeyTranslator.java
        RepartitionTranslator.java
        SortTranslator.java
        TimestampedElement.java
        UnionTranslator.java
        io
        DataSinkWrapper.java
        DataSourceWrapper.java
        PartitionWrapper.java
        functions
        IteratorIterable.java
        PartitionerWrapper.java
        storage
        Descriptors.java
        FlinkListStorage.java
        FlinkReducingValueStorage.java
        FlinkValueStorage.java
        ReducingMerger.java
        streaming
        EventTimeAssigner.java
        FlatMapTranslator.java
        InputTranslator.java
        ReduceStateByKeyTranslator.java
        RepartitionTranslator.java
        StreamingElement.java
        StreamingExecutorContext.java
        StreamingFlowTranslator.java
        StreamingOperatorTranslator.java
        StreamingUnaryFunctorWrapper.java
        UnionTranslator.java
        io
        DataSinkWrapper.java
        DataSourceWrapper.java
        windowing
        AbstractWindowOperator.java
        AttachedWindowing.java
        KeyedMultiWindowedElement.java
        KeyedMultiWindowedElementWindowOperator.java
        MergingWindowSet.java
        StreamingElementWindowOperator.java
        WindowAssigner.java
        WindowedStorageProvider.java
    - test
      - java
        cz
        seznam
        euphoria
        flink
        TestConsecutiveBasicOpsTranslation.java
        TestDistinctBasic.java
        batch
        BatchElementTest.java
        BatchStateStorageProviderTest.java
        streaming
        RBKAttachedWindowingTest.java
        RBKTimeSlidingTest.java
        RBKTimeWindowTest.java
        RSBKWindowingTest.java
        StreamingElementTest.java
        Util.java
        windowing
        KeyedMultiWindowedElementTest.java
        testkit
        FlinkExecutorProvider.java
        FlinkOperatorsTest.java
        ModuloInputSplitAssigner.java
- euphoria-fluent
  - src
    - main
      - java
        cz
        seznam
        euphoria
        fluent
        Dataset.java
        Flow.java
        Fluent.java
    - test
      - java
        cz
        seznam
        euphoria
        fluent
        FluentTest.java
- euphoria-hadoop
  - src
    - main
      - java
        cz
        seznam
        euphoria
        hadoop
        HadoopUtils.java
        SerializableWritable.java
        input
        DataSourceInputFormat.java
        HadoopSource.java
        HadoopTextFileSource.java
        SequenceFileSource.java
        SimpleHadoopTextFileSource.java
        output
        DataSinkOutputFormat.java
        HadoopSink.java
        HadoopTextFileSink.java
        HadoopToStringSink.java
        SequenceFileSink.java
        SimpleHadoopTextFileSink.java
        utils
        Cloner.java
        Serializer.java
    - test
      - java
        cz
        seznam
        euphoria
        hadoop
        ExerciseHadoopIO.java
        SerializableWritableTest.java
        input
        Supplier.java
        TestDataSourceInputFormat.java
        output
        TestDataSinkOutputFormat.java
- euphoria-inmem
  - src
    - main
      - java
        cz
        seznam
        euphoria
        inmem
        AbstractTriggerScheduler.java
        AttachedWindowing.java
        Collector.java
        Datum.java
        ExecPath.java
        ExecUnit.java
        InMemExecutor.java
        InMemStorageProvider.java
        KeyedWindow.java
        NoopTriggerScheduler.java
        ProcessingTimeTriggerScheduler.java
        ReduceStateByKeyReducer.java
        TriggerScheduler.java
        Triggerable.java
        VectorClock.java
        WatermarkEmitStrategy.java
        WatermarkTriggerScheduler.java
        WindowedElementCollector.java
    - test
      - java
        cz
        seznam
        euphoria
        inmem
        BasicOperatorTest.java
        InMemExecutorTest.java
        JoinOperatorTest.java
        Util.java
        VectorClockTest.java
        WindowingTest.java
        testkit
        InMemExecutorProvider.java
        InMemOperatorTest.java
- euphoria-kafka
  - src
    - main
      - java
        cz
        seznam
        euphoria
        kafka
        KafkaSink.java
        KafkaSource.java
        KafkaUtils.java
- euphoria-operator-testkit
  - src
    - main
      - java
        cz
        seznam
        euphoria
        operator
        test
        AllOperatorsSuite.java
        CountByKeyTest.java
        DistinctTest.java
        FilterTest.java
        FlatMapTest.java
        IntWindow.java
        JoinTest.java
        JoinWindowEnforcementTest.java
        MapElementsTest.java
        ReduceByKeyTest.java
        ReduceStateByKeyTest.java
        RepartitionTest.java
        SortTest.java
        SumByKeyTest.java
        TopPerKeyTest.java
        UnionTest.java
        Util.java
        WatermarkTest.java
        WindowingTest.java
        junit
        AbstractOperatorTest.java
        ExecutorEnvironment.java
        ExecutorProvider.java
        ExecutorProviderRunner.java
        Processing.java
- euphoria-spark
  - src
    - main
      - java
        cz
        seznam
        euphoria
        spark
        AttachedWindowing.java
        EventTimeAssigningUnaryFunctor.java
        FlatMapTranslator.java
        FunctionContext.java
        FunctionContextAsync.java
        FunctionContextMem.java
        InputTranslator.java
        KeyedWindow.java
        PartitioningWrapper.java
        ReduceByKeyTranslator.java
        ReduceStateByKeyTranslator.java
        RepartitionTranslator.java
        SortTranslator.java
        SparkElement.java
        SparkExecutor.java
        SparkExecutorContext.java
        SparkFlowTranslator.java
        SparkOperatorTranslator.java
        SparkSerializerFactory.java
        SparkStorageProvider.java
        TestSparkExecutor.java
        TimestampedElement.java
        UnaryFunctorWrapper.java
        UnionTranslator.java
    - test
      - java
        cz
        seznam
        euphoria
        spark
        testkit
        SparkExecutorProvider.java
        SparkOperatorTest.java

/**
 * Copyright 2016-2017 Seznam.cz, a.s.
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package cz.seznam.euphoria.hadoop;

import cz.seznam.euphoria.core.client.dataset.Dataset;
import cz.seznam.euphoria.core.client.flow.Flow;
import cz.seznam.euphoria.core.client.io.Context;
import cz.seznam.euphoria.core.client.io.StdoutSink;
import cz.seznam.euphoria.core.client.operator.FlatMap;
import cz.seznam.euphoria.core.client.operator.ReduceByKey;
import cz.seznam.euphoria.core.client.util.Pair;
import cz.seznam.euphoria.core.client.util.Sums;
import cz.seznam.euphoria.core.executor.Executor;
import cz.seznam.euphoria.core.util.Settings;
import cz.seznam.euphoria.hadoop.input.SimpleHadoopTextFileSource;
import cz.seznam.euphoria.inmem.InMemExecutor;

import java.net.URI;
import java.util.regex.Pattern;

/** Implements a very simplistic WordCount over text files using hadoop data sinks. */
public class ExerciseHadoopIO {

  private static final Pattern SPLIT_RE = Pattern.compile("\\s+");

  public static void main(String[] args) throws Exception {
    if (args.length != 1) {
      System.err.println("Usage: " + ExerciseHadoopIO.class + " <input-uri>");
      System.exit(1);
    }

    final URI inputUri = URI.create(args[0]);

    Settings settings = new Settings();
    settings.setClass("euphoria.io.datasource.factory.webhdfs",
        SimpleHadoopTextFileSource.Factory.class);
    settings.setClass("euphoria.io.datasource.factory.hdfs",
        SimpleHadoopTextFileSource.Factory.class);
    settings.setClass("euphoria.io.datasource.factory.file",
        SimpleHadoopTextFileSource.Factory.class);

    Flow flow = Flow.create("WordCount", settings);

    // set-up our input source (a stream)
    Dataset<String> lines = flow.createInput(inputUri);

    Dataset<Pair<String, Long>> tuples = FlatMap.of(lines)
        .using((String line, Context<Pair<String, Long>> out) ->
            SPLIT_RE.splitAsStream(line)
                .map(String::trim)
                .filter(s -> !s.isEmpty())
                .forEachOrdered(s -> out.collect(Pair.of(s, 1L))))
        .output();

    // reduce it to counts, use windowing
    Dataset<Pair<String, Long>> wordCount = ReduceByKey
            .of(tuples)
            .keyBy(Pair::getFirst)
            .valueBy(Pair::getSecond)
            .combineBy(Sums.ofLongs())
            .output();

    // produce the output
    wordCount.persist(new StdoutSink<>());

    Executor executor = new InMemExecutor();
    executor.submit(flow).get();
  }
}