Task.java example

Explorer

dstream-master
- dstream-api
  - src
    - main
      - examples
        dstream
        examples
        BasicTransformationAndShuffles.java
        Join.java
        Union.java
        WordCount.java
      - java
        io
        dstream
        AbstractDStreamExecutionDelegate.java
        AbstractStreamMergingFunction.java
        BaseDStream.java
        DStream.java
        DStreamConstants.java
        DStreamExecutionDelegate.java
        DStreamExecutionGraph.java
        DStreamExecutionGraphBuilder.java
        DStreamExecutionGraphsBuilder.java
        DStreamInvocationChain.java
        DStreamOperation.java
        ExecutableDStream.java
        Ops.java
        SerializableStreamAssets.java
        StreamJoinerFunction.java
        StreamUnionFunction.java
        function
        BiFunctionToBinaryOperatorAdapter.java
        DStreamToStreamAdapterFunction.java
        KeyValueMappingFunction.java
        ValuesAggregatingFunction.java
        ValuesReducingFunction.java
        local
        ri
        LocalDStreamExecutionDelegate.java
        LocalDStreamExecutionEngine.java
        ShuffleHelper.java
        support
        AbstractPartitionedStreamProducingSourceSupplier.java
        Aggregators.java
        Classifier.java
        CollectionFactory.java
        DefaultCollectionFactory.java
        HashClassifier.java
        PartitionIdClassifier.java
        PartitionIdHelper.java
        SharedReference.java
        SimpleSharedReference.java
        SourceFilter.java
        SourceSupplier.java
        UriSourceSupplier.java
        utils
        Assert.java
        ExecutionResultUtils.java
        KVUtils.java
        PropertiesHelper.java
        ReflectionUtils.java
        SerializationUtils.java
        SingleValueIterator.java
        StringUtils.java
        Tuples.java
    - test
      - java
        io
        dstream
        DStreamOperationsCollectorTests.java
        DStreamTests.java
        StreamJoinerFunctionTests.java
        ValidationDelegate.java
        function
        DStreamToStreamAdapterFunctionTests.java
        FunctionCompositionAndSerializationTests.java
        KeyValueMappingFunctionTests.java
        ValuesGroupingFunctionTests.java
        ValuesReducingFunctionTests.java
        local
        ri
        DStreamExecutionTests.java
        support
        HashClassifierTests.java
        PartitionIdClassifierTests.java
        SharedReferenceTests.java
        utils
        PropertiesHelperTests.java
- dstream-dev-template
  - src
    - main
      - java
        sample
        nifi
        SampleNiFiDStreamProcessor.java
        standalone
        WordCount.java
        tez
        WordCountTez.java
- dstream-nifi
  - src
    - main
      - java
        io
        dstream
        nifi
        AbstractDStreamProcessor.java
- dstream-spark
  - src
    - main
      - examples
        dstream
        spark
        examples
        Join.java
        WordCount.java
      - java
        io
        dstream
        hadoop
        KeyWritable.java
        NewWritable.java
        SequenceFileOutputStreamsBuilder.java
        TypeAwareWritable.java
        ValueWritable.java
        spark
        SparkAdapters.java
- dstream-sql
  - src
    - main
      - java
        io
        dstream
        sql
        DStreamSQLConstants.java
        DefaultRowImpl.java
        Row.java
        SQLDStream.java
        SqlExecutionResultSupplier.java
    - test
      - java
        io
        dstream
        sql
        BaseSqlTests.java
        SQLDStreamTests.java
- dstream-tez
  - src
    - main
      - examples
        dstream
        tez
        examples
        Join.java
        SampleUtils.java
        Union.java
        WordCount.java
      - java
        io
        dstream
        hadoop
        fs
        spi
        HdfsFileSystem.java
        HdfsFileSystemProvider.java
        HdfsPath.java
        tez
        ExecutionContextAwareTezClient.java
        OutputStreamsBuilder.java
        Task.java
        TaskDescriptor.java
        TaskDescriptorChainBuilder.java
        TezConstants.java
        TezDAGBuilder.java
        TezDagExecutor.java
        TezExecutionDelegate.java
        TezTaskProcessor.java
        io
        KeyWritable.java
        NewWritable.java
        TezDelegatingPartitioner.java
        TypeAwareWritable.java
        ValueWritable.java
        utils
        ClassPathUtils.java
        HadoopUtils.java
        HdfsSerializerUtils.java
        SequenceFileOutputStreamsBuilder.java
        StreamUtils.java
    - test
      - java
        io
        dstream
        tez
        AggregateValuesTests.java
        BaseTezTests.java
        ClassificationTests.java
        DStreamExecutionTests.java
        MapSideCombineTests.java
        NonURISourcesExecutionTests.java
        StreamAPIJoinTests.java
        StreamAPIUnionTests.java
        TestClassifier.java
        hadoop
        fs
        spi
        HdfsFileSystemProviderTests.java

/**
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package io.dstream.tez;

import java.io.Serializable;
import java.lang.reflect.ParameterizedType;
import java.lang.reflect.Type;
import java.util.Map.Entry;
import java.util.stream.Stream;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;

import io.dstream.SerializableStreamAssets.SerFunction;
import io.dstream.support.AbstractPartitionedStreamProducingSourceSupplier;
import io.dstream.support.Classifier;

/**
 *
 */
final class Task implements Serializable {
	private static final long serialVersionUID = -1800812882885490376L;

	private final SerFunction<Stream<?>, Stream<?>> function;

	private final Classifier classifier;

	private final String name;

	private final int id;

	private AbstractPartitionedStreamProducingSourceSupplier<?> streamProducingSourceSupplier;

	/**
	 *
	 * @param id
	 * @param name
	 * @param partitioner
	 * @param function
	 */
	private Task(int id, String name, Classifier classifier, SerFunction<Stream<?>, Stream<?>> function){
		this.id = id;
		this.name = name;
		this.classifier = classifier;
		this.function = function;
	}

	/**
	 *
	 * @param taskDescriptor
	 * @return
	 */
	static Task build(TaskDescriptor taskDescriptor) {
		SerFunction<Stream<?>, Stream<?>> taskFunction = adjustTaskFunction(taskDescriptor);
		Task task = new Task(taskDescriptor.getId(), taskDescriptor.getName(), taskDescriptor.getClassifier(), taskFunction);
		if (taskDescriptor.getSourceSupplier() instanceof AbstractPartitionedStreamProducingSourceSupplier){
			task.setStreamProducingSourceSupplier((AbstractPartitionedStreamProducingSourceSupplier<?>) taskDescriptor.getSourceSupplier());
		}
		return task;
	}

	/**
	 *
	 * @return
	 */
	public SerFunction<Stream<?>, Stream<?>> getFunction() {
		return function;
	}

	/**
	 *
	 * @return
	 */
	public Classifier getClassifier() {
		return this.classifier;
	}

	/**
	 *
	 * @return
	 */
	public String getName() {
		return name;
	}

	/**
	 *
	 * @return
	 */
	public int getId() {
		return id;
	}

	/**
	 *
	 * @return
	 */
	public AbstractPartitionedStreamProducingSourceSupplier<?> getStreamProducingSourceSupplier() {
		return streamProducingSourceSupplier;
	}

	/**
	 *
	 * @param streamProducingSourceSupplier
	 */
	void setStreamProducingSourceSupplier(AbstractPartitionedStreamProducingSourceSupplier<?> streamProducingSourceSupplier) {
		this.streamProducingSourceSupplier = streamProducingSourceSupplier;
	}

	/**
	 * This will adjust task function to ensure that it is compatible with Hadoop KV readers and types expected by user.
	 * For example, reading Text file Tez will produce KV pairs (offset, line), while user is only expected the value.
	 */
	@SuppressWarnings("rawtypes")
	private static SerFunction<Stream<?>, Stream<?>> adjustTaskFunction(TaskDescriptor taskDescriptor){
		SerFunction<Stream<?>, Stream<?>> modifiedFunction = taskDescriptor.getFunction();
		if (taskDescriptor.getId() == 0 && !Entry.class.isAssignableFrom(taskDescriptor.getSourceElementType())){
			if (Writable.class.isAssignableFrom(taskDescriptor.getSourceElementType())){
				modifiedFunction = modifiedFunction.compose(stream -> stream.map(s -> ((Entry)s).getValue()));
			}
			else {
				if (taskDescriptor.getInputFormatClass() != null){// only URI based sources will have Input Format
					ParameterizedType parameterizedType = (ParameterizedType) taskDescriptor.getInputFormatClass().getGenericSuperclass();
					Type type = parameterizedType.getActualTypeArguments()[1];

					if (Text.class.getName().equals(type.getTypeName())){
						if (modifiedFunction == null) {
							modifiedFunction = stream -> stream.map(s -> ((Entry) s).getValue().toString());
						} else {
							modifiedFunction = modifiedFunction.compose(stream -> stream.map(s -> ((Entry) s)
									.getValue().toString()));
						}
					}
					else {
						//TODO need to design some type of extensible converter to support multiple types of Writable
						throw new IllegalStateException("Can't determine modified function");
					}
				}
			}
		}
		return modifiedFunction;
	}
}