GenericHadoopExtractor.java example

Explorer

deep-spark-master
- deep-aerospike
  - src
    - main
      - java
        com
        aerospike
        hadoop
        mapreduce
        AerospikeClientSingleton.java
        AerospikeConfigUtil.java
        AerospikeInputFormat.java
        AerospikeKey.java
        AerospikeLogger.java
        AerospikeOutputFormat.java
        AerospikeRecord.java
        AerospikeRecordReader.java
        AerospikeRecordWriter.java
        AerospikeSplit.java
        stratio
        deep
        aerospike
        config
        AerospikeConfigFactory.java
        AerospikeDeepJobConfig.java
        AerospikeDeepOutputFormat.java
        IAerospikeDeepJobConfig.java
        extractor
        AerospikeCellExtractor.java
        AerospikeEntityExtractor.java
        AerospikeExtractor.java
        utils
        UtilAerospike.java
    - test
      - java
        com
        stratio
        deep
        aerospike
        AerospikeCellExtractorFT.java
        AerospikeEntityExtractorFT.java
        AerospikeJavaRDDFT.java
        config
        AerospikeConfigFactoryTest.java
        CellDeepJobConfigAerospikeTest.java
        GenericConfigFactoryAerospikeTest.java
        utils
        UtilAerospikeTest.java
- deep-cassandra
  - src
    - main
      - java
        com
        stratio
        deep
        cassandra
        config
        CassandraConfigFactory.java
        CassandraDeepJobConfig.java
        CellDeepJobConfig.java
        EntityDeepJobConfig.java
        ICassandraDeepJobConfig.java
        OperatorCassandra.java
        cql
        CassandraClientProvider.java
        DeepCqlRecordWriter.java
        DeepRecordReader.java
        LocalMachineLoadBalancingPolicy.java
        RangeUtils.java
        entity
        CassandraCell.java
        CellValidator.java
        extractor
        CassandraCellExtractor.java
        CassandraEntityExtractor.java
        CassandraExtractor.java
        filter
        value
        EqualsInValue.java
        functions
        CellList2TupleFunction.java
        DeepType2TupleFunction.java
        querybuilder
        CassandraUpdateQueryBuilder.java
        DefaultQueryBuilder.java
        IncreaseCountersQueryBuilder.java
        thrift
        ThriftClient.java
        ThriftRangeUtils.java
        util
        AnnotationUtils.java
        CassandraUtils.java
    - test
      - java
        com
        stratio
        deep
        cassandra
        CassandraCellExtractorFT.java
        CassandraEntityExtractorFT.java
        CassandraJavaRDDFT.java
        cql
        DeepCqlRecordWriterTest.java
        DeepRecordReaderTest.java
        RangeUtilsTest.java
        embedded
        CassandraServer.java
        entity
        CellTest.java
        CellValidatorTest.java
        CellsTest.java
        partition
        impl
        DeepPartitionLocationComparatorTest.java
        thrift
        ThriftRangeUtilsTest.java
        utils
        CassandraRDDUtilsTest.java
- deep-commons
  - src
    - main
      - java
        com
        stratio
        deep
        commons
        annotations
        DeepEntity.java
        DeepField.java
        config
        BaseConfig.java
        DeepJobConfig.java
        ExtractorConfig.java
        ExtractorType.java
        HadoopConfig.java
        IDeepJobConfig.java
        entity
        Cell.java
        Cells.java
        IDeepType.java
        exception
        DeepExtractorInitializationException.java
        DeepGenericException.java
        DeepIOException.java
        DeepIllegalAccessException.java
        DeepIndexNotFoundException.java
        DeepInstantiationException.java
        DeepNoSuchFieldException.java
        DeepTransformException.java
        extractor
        actions
        Action.java
        ActionType.java
        CloseAction.java
        ExtractorInstanceAction.java
        GetPartitionsAction.java
        HasNextAction.java
        InitIteratorAction.java
        InitSaveAction.java
        NextAction.java
        SaveAction.java
        client
        codecs
        ActionDecoder.java
        ActionEncoder.java
        ResponseDecoder.java
        ResponseEncoder.java
        impl
        GenericHadoopExtractor.java
        response
        CloseResponse.java
        ExtractorInstanceResponse.java
        GetPartitionsResponse.java
        HasNextResponse.java
        InitIteratorResponse.java
        InitSaveResponse.java
        NextResponse.java
        Response.java
        SaveResponse.java
        server
        ExtractorServer.java
        ExtractorServerHandler.java
        ExtractorServerInitializer.java
        utils
        ExtractorConstants.java
        filter
        Filter.java
        FilterType.java
        functions
        AbstractSerializableFunction.java
        AbstractSerializableFunction2.java
        handler
        DeepRecordWriter.java
        impl
        DeepPartition.java
        DeepPartitionLocationComparator.java
        querybuilder
        UpdateQueryBuilder.java
        rdd
        DeepTokenRange.java
        IDeepPartition.java
        IDeepRecordReader.java
        IExtractor.java
        utils
        AnnotationUtils.java
        CellsUtils.java
        Constants.java
        DeepSparkHadoopMapReduceUtil.java
        Pair.java
        Utils.java
    - test
      - java
        com
        stratio
        deep
        commons
        config
        DeepJobConfigTest.java
        ExtractorConfigTest.java
        utils
        CellsUtilsTest.java
        UtilsTest.java
        testentity
        CommonsBaseTestEntity.java
        CommonsTestEntity.java
        testutils
        FunctionalTest.java
        PairTest.java
        UnitTest.java
        UtilsTest.java
- deep-core
  - src
    - main
      - java
        com
        stratio
        deep
        core
        context
        DeepSparkConfig.java
        DeepSparkContext.java
        extractor
        client
        ExtractorClient.java
        ExtractorClientHandler.java
        ExtractorClientInitializer.java
        fs
        utils
        MapSchemaFromLines.java
        SchemaMap.java
        TableName.java
        TextFileDataTable.java
        UtilFS.java
        function
        PrepareSaveFunction.java
        rdd
        DeepJavaRDD.java
        DeepJobRDD.java
        DeepRDD.java
        OnComputedRDDCallback.java
        serializer
        DeepKryoRegistrator.java
        util
        ExtractorClientUtil.java
    - test
      - java
        com
        stratio
        deep
        core
        context
        DeepSparkContextTest.java
        entity
        BookEntity.java
        CantoEntity.java
        MessageTestEntity.java
        MetadataEntity.java
        PlayerEntity.java
        SimpleBookEntity.java
        TeamEntity.java
        WordCount.java
        extractor
        ExtractorCellTest.java
        ExtractorEntityTest.java
        ExtractorTest.java
- deep-elasticsearch
  - src
    - main
      - java
        com
        stratio
        deep
        es
        config
        ESConfigFactory.java
        ESDeepJobConfig.java
        IESDeepJobConfig.java
        extractor
        ESCellExtractor.java
        ESEntityExtractor.java
        utils
        UtilES.java
    - test
      - java
        com
        stratio
        es
        ESCellRDDFT.java
        ESEntityRDDFT.java
        ESJavaRDDFT.java
        config
        CellDeepJobConfigESTest.java
        utils
        UtilESTest.java
- deep-jdbc
  - src
    - main
      - java
        com
        stratio
        deep
        jdbc
        config
        IJdbcDeepJobConfig.java
        JdbcConfigFactory.java
        JdbcDeepJobConfig.java
        JdbcNeo4JConfigFactory.java
        JdbcNeo4JDeepJobConfig.java
        extractor
        JdbcNativeCellExtractor.java
        JdbcNativeEntityExtractor.java
        JdbcNativeExtractor.java
        JdbcNeo4JNativeCellExtractor.java
        JdbcNeo4JNativeEntityExtractor.java
        JdbcNeo4JNativeExtractor.java
        reader
        IJdbcReader.java
        JdbcNeo4JReader.java
        JdbcReader.java
        utils
        UtilJdbc.java
        writer
        IJdbcWriter.java
        JdbcNeo4JWriter.java
        JdbcWriter.java
    - test
      - java
        com
        stratio
        deep
        jdbc
        JdbcCellExtractorFT.java
        JdbcEntityExtractorFT.java
        JdbcJavaRDDFT.java
        config
        CellDeepJobConfigJdbcNeo4JTest.java
        CellDeepJobConfigJdbcTest.java
        GenericConfigFactoryJdbcNeo4JTest.java
        GenericConfigFactoryJdbcTest.java
        JdbcConfigFactoryTest.java
        JdbcDeepJobConfigTest.java
        JdbcNeo4JConfigFactoryTest.java
        JdbcNeo4JDeepJobConfigTest.java
        extractor
        JdbcNativeCellExtractorTest.java
        JdbcNativeEntityExtractorTest.java
        JdbcNativeExtractorTest.java
        JdbcNeo4JNativeCellExtractorTest.java
        JdbcNeo4JNativeEntityExtractorTest.java
        JdbcNeo4JNativeExtractorTest.java
        reader
        JdbcNeo4JReaderTest.java
        JdbcReaderTest.java
        utils
        UtilJdbcTest.java
- deep-mongodb
  - src
    - main
      - java
        com
        stratio
        deep
        mongodb
        config
        IMongoDeepJobConfig.java
        MongoConfigFactory.java
        MongoDeepJobConfig.java
        extractor
        MongoCellExtractor.java
        MongoEntityExtractor.java
        MongoExtractor.java
        MongoNativeCellExtractor.java
        MongoNativeDBObjectExtractor.java
        MongoNativeEntityExtractor.java
        MongoNativeExtractor.java
        partition
        MongoPartition.java
        reader
        MongoReader.java
        utils
        UtilMongoDB.java
        writer
        MongoWriter.java
    - test
      - java
        com
        stratio
        deep
        mongodb
        MongoCellExtractorFT.java
        MongoEntityExtractorFT.java
        MongoJavaRDDFT.java
        MongoNativeCellExtractorFT.java
        MongoNativeEntityExtractorFT.java
        config
        CellDeepJobConfigMongoDBTest.java
        GenericConfigFactoryMongoDBTest.java
        MongoConfigFactoryTest.java
        MongoDeepJobConfigTest.java
        testentity
        MessageTestEntity.java
        MongoDBTestEntity.java
        utils
        UtilMongoDBTest.java

/*
 * Copyright 2014, Stratio.
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 * http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

package com.stratio.deep.commons.extractor.impl;

import static com.stratio.deep.commons.utils.Utils.initConfig;

import java.io.IOException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.List;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.mapreduce.InputFormat;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.JobID;
import org.apache.hadoop.mapreduce.OutputFormat;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.TaskAttemptID;
import org.apache.log4j.Logger;
import org.apache.spark.Partition;
import org.apache.spark.rdd.NewHadoopPartition;

import com.stratio.deep.commons.config.BaseConfig;
import com.stratio.deep.commons.config.DeepJobConfig;
import com.stratio.deep.commons.config.ExtractorConfig;
import com.stratio.deep.commons.config.HadoopConfig;
import com.stratio.deep.commons.exception.DeepGenericException;
import com.stratio.deep.commons.querybuilder.UpdateQueryBuilder;
import com.stratio.deep.commons.rdd.IExtractor;
import com.stratio.deep.commons.utils.DeepSparkHadoopMapReduceUtil;

import scala.Tuple2;

/**
 * Created by rcrespo on 26/08/14.
 */
public abstract class GenericHadoopExtractor<T, S extends BaseConfig, K, V, kOut, vOut> implements IExtractor<T, S> {

    protected HadoopConfig deepJobConfig;

    protected transient RecordReader<K, V> reader;

    protected transient RecordWriter<kOut, vOut> writer;

    protected transient InputFormat<K, V> inputFormat;

    protected transient OutputFormat<kOut, vOut> outputFormat;

    protected transient String jobTrackerId;

    protected transient TaskAttemptContext hadoopAttemptContext;

    protected boolean havePair = false;

    protected boolean finished = false;

    protected transient JobID jobId = null;

    private static final Logger LOG = Logger.getLogger(GenericHadoopExtractor.class);

    {
        SimpleDateFormat formatter = new SimpleDateFormat("yyyyMMddHHmm");
        jobTrackerId = formatter.format(new Date());

    }

    @Override
    public List<String> getPreferredLocations(Partition split) {
        return null;
    }

    @Override
    public Partition[] getPartitions(S config) {


        int id = config.getRddId();

        jobId = new JobID(jobTrackerId, id);



        Configuration conf = getHadoopConfig(config);

        JobContext jobContext = DeepSparkHadoopMapReduceUtil.newJobContext(conf, jobId);

        try {
            List<InputSplit> splits = inputFormat.getSplits(jobContext);

            Partition[] partitions = new Partition[(splits.size())];
            for (int i = 0; i < splits.size(); i++) {
                partitions[i] = new NewHadoopPartition(id, i, splits.get(i));
            }

            return partitions;

        } catch (IOException | InterruptedException | RuntimeException e) {
            LOG.error("Impossible to calculate partitions " + e.getMessage());
            throw new DeepGenericException("Impossible to calculate partitions ", e);
        }

    }

    @Override
    public boolean hasNext() {
        if (!finished && !havePair) {
            try {
                finished = !reader.nextKeyValue();
            } catch (IOException | InterruptedException e) {
                LOG.error("Impossible to get hasNext " + e.getMessage());
                throw new DeepGenericException("Impossible to get hasNext ", e);
            }
            havePair = !finished;

        }
        return !finished;
    }

    @Override
    public T next() {
        if (!hasNext()) {
            throw new java.util.NoSuchElementException("End of stream");
        }
        havePair = false;

        Tuple2<K, V> tuple = null;
        try {
            return (T) transformElement(new Tuple2<>(reader.getCurrentKey(), reader.getCurrentValue()),
                    deepJobConfig);
        } catch (IOException | InterruptedException e) {
            LOG.error("Impossible to get next value " + e.getMessage());
            throw new DeepGenericException("Impossible to get next value ", e);
        }
    }

    @Override
    public void close() {
        try {
            if (reader != null) {
                reader.close();
            }
            if (writer != null) {
                writer.close(hadoopAttemptContext);
            }
        } catch (IOException | InterruptedException e) {
            LOG.error("Impossible to close RecordReader " + e.getMessage());
            throw new DeepGenericException("Impossible to close RecordReader ", e);
        }
    }

    private Configuration getHadoopConfig(S config) {

        deepJobConfig = initConfig(config, deepJobConfig);

        return deepJobConfig.getHadoopConfiguration();
    }

    public abstract T transformElement(Tuple2<K, V> tuple, DeepJobConfig<T, ? extends DeepJobConfig> config);

    @Override
    public void saveRDD(T t) {
        Tuple2<kOut, vOut> tuple = transformElement(t);
        try {
            writer.write(tuple._1(), tuple._2());

        } catch (IOException | InterruptedException e) {
            LOG.error("Impossible to saveRDD " + e.getMessage());
            throw new DeepGenericException("Impossible to saveRDD ", e);
        }
        return;
    }

    @Override
    public void initSave(S config, T first, UpdateQueryBuilder queryBuilder) {
        int id = config.getRddId();

        int partitionIndex = config.getPartitionId();

        TaskAttemptID attemptId = DeepSparkHadoopMapReduceUtil
                .newTaskAttemptID(jobTrackerId, id, true, partitionIndex, 0);

        Configuration configuration = getHadoopConfig(config);


        hadoopAttemptContext = DeepSparkHadoopMapReduceUtil
                .newTaskAttemptContext(configuration,
                        attemptId);
        try {
            writer = outputFormat.getRecordWriter(hadoopAttemptContext);
        } catch (IOException | InterruptedException e) {
            throw new DeepGenericException(e);
        }
    }

    @Override
    public void initIterator(Partition dp, S config) {

        int id = config.getRddId();

        NewHadoopPartition split = (NewHadoopPartition) dp;

        TaskAttemptID attemptId = DeepSparkHadoopMapReduceUtil
                .newTaskAttemptID(jobTrackerId, id, true, split.index(), 0);

        Configuration configuration = getHadoopConfig(config);

        TaskAttemptContext hadoopAttemptContext = DeepSparkHadoopMapReduceUtil
                .newTaskAttemptContext(configuration, attemptId);

        try {
            reader = inputFormat.createRecordReader(split.serializableHadoopSplit().value(), hadoopAttemptContext);
            reader.initialize(split.serializableHadoopSplit().value(), hadoopAttemptContext);
        } catch (IOException | InterruptedException e) {
            throw new DeepGenericException(e);
        }
    }

    public abstract Tuple2<kOut, vOut> transformElement(T record);
}