RangeUtils.java example

Explorer

deep-spark-master
- deep-aerospike
  - src
    - main
      - java
        com
        aerospike
        hadoop
        mapreduce
        AerospikeClientSingleton.java
        AerospikeConfigUtil.java
        AerospikeInputFormat.java
        AerospikeKey.java
        AerospikeLogger.java
        AerospikeOutputFormat.java
        AerospikeRecord.java
        AerospikeRecordReader.java
        AerospikeRecordWriter.java
        AerospikeSplit.java
        stratio
        deep
        aerospike
        config
        AerospikeConfigFactory.java
        AerospikeDeepJobConfig.java
        AerospikeDeepOutputFormat.java
        IAerospikeDeepJobConfig.java
        extractor
        AerospikeCellExtractor.java
        AerospikeEntityExtractor.java
        AerospikeExtractor.java
        utils
        UtilAerospike.java
    - test
      - java
        com
        stratio
        deep
        aerospike
        AerospikeCellExtractorFT.java
        AerospikeEntityExtractorFT.java
        AerospikeJavaRDDFT.java
        config
        AerospikeConfigFactoryTest.java
        CellDeepJobConfigAerospikeTest.java
        GenericConfigFactoryAerospikeTest.java
        utils
        UtilAerospikeTest.java
- deep-cassandra
  - src
    - main
      - java
        com
        stratio
        deep
        cassandra
        config
        CassandraConfigFactory.java
        CassandraDeepJobConfig.java
        CellDeepJobConfig.java
        EntityDeepJobConfig.java
        ICassandraDeepJobConfig.java
        OperatorCassandra.java
        cql
        CassandraClientProvider.java
        DeepCqlRecordWriter.java
        DeepRecordReader.java
        LocalMachineLoadBalancingPolicy.java
        RangeUtils.java
        entity
        CassandraCell.java
        CellValidator.java
        extractor
        CassandraCellExtractor.java
        CassandraEntityExtractor.java
        CassandraExtractor.java
        filter
        value
        EqualsInValue.java
        functions
        CellList2TupleFunction.java
        DeepType2TupleFunction.java
        querybuilder
        CassandraUpdateQueryBuilder.java
        DefaultQueryBuilder.java
        IncreaseCountersQueryBuilder.java
        thrift
        ThriftClient.java
        ThriftRangeUtils.java
        util
        AnnotationUtils.java
        CassandraUtils.java
    - test
      - java
        com
        stratio
        deep
        cassandra
        CassandraCellExtractorFT.java
        CassandraEntityExtractorFT.java
        CassandraJavaRDDFT.java
        cql
        DeepCqlRecordWriterTest.java
        DeepRecordReaderTest.java
        RangeUtilsTest.java
        embedded
        CassandraServer.java
        entity
        CellTest.java
        CellValidatorTest.java
        CellsTest.java
        partition
        impl
        DeepPartitionLocationComparatorTest.java
        thrift
        ThriftRangeUtilsTest.java
        utils
        CassandraRDDUtilsTest.java
- deep-commons
  - src
    - main
      - java
        com
        stratio
        deep
        commons
        annotations
        DeepEntity.java
        DeepField.java
        config
        BaseConfig.java
        DeepJobConfig.java
        ExtractorConfig.java
        ExtractorType.java
        HadoopConfig.java
        IDeepJobConfig.java
        entity
        Cell.java
        Cells.java
        IDeepType.java
        exception
        DeepExtractorInitializationException.java
        DeepGenericException.java
        DeepIOException.java
        DeepIllegalAccessException.java
        DeepIndexNotFoundException.java
        DeepInstantiationException.java
        DeepNoSuchFieldException.java
        DeepTransformException.java
        extractor
        actions
        Action.java
        ActionType.java
        CloseAction.java
        ExtractorInstanceAction.java
        GetPartitionsAction.java
        HasNextAction.java
        InitIteratorAction.java
        InitSaveAction.java
        NextAction.java
        SaveAction.java
        client
        codecs
        ActionDecoder.java
        ActionEncoder.java
        ResponseDecoder.java
        ResponseEncoder.java
        impl
        GenericHadoopExtractor.java
        response
        CloseResponse.java
        ExtractorInstanceResponse.java
        GetPartitionsResponse.java
        HasNextResponse.java
        InitIteratorResponse.java
        InitSaveResponse.java
        NextResponse.java
        Response.java
        SaveResponse.java
        server
        ExtractorServer.java
        ExtractorServerHandler.java
        ExtractorServerInitializer.java
        utils
        ExtractorConstants.java
        filter
        Filter.java
        FilterType.java
        functions
        AbstractSerializableFunction.java
        AbstractSerializableFunction2.java
        handler
        DeepRecordWriter.java
        impl
        DeepPartition.java
        DeepPartitionLocationComparator.java
        querybuilder
        UpdateQueryBuilder.java
        rdd
        DeepTokenRange.java
        IDeepPartition.java
        IDeepRecordReader.java
        IExtractor.java
        utils
        AnnotationUtils.java
        CellsUtils.java
        Constants.java
        DeepSparkHadoopMapReduceUtil.java
        Pair.java
        Utils.java
    - test
      - java
        com
        stratio
        deep
        commons
        config
        DeepJobConfigTest.java
        ExtractorConfigTest.java
        utils
        CellsUtilsTest.java
        UtilsTest.java
        testentity
        CommonsBaseTestEntity.java
        CommonsTestEntity.java
        testutils
        FunctionalTest.java
        PairTest.java
        UnitTest.java
        UtilsTest.java
- deep-core
  - src
    - main
      - java
        com
        stratio
        deep
        core
        context
        DeepSparkConfig.java
        DeepSparkContext.java
        extractor
        client
        ExtractorClient.java
        ExtractorClientHandler.java
        ExtractorClientInitializer.java
        fs
        utils
        MapSchemaFromLines.java
        SchemaMap.java
        TableName.java
        TextFileDataTable.java
        UtilFS.java
        function
        PrepareSaveFunction.java
        rdd
        DeepJavaRDD.java
        DeepJobRDD.java
        DeepRDD.java
        OnComputedRDDCallback.java
        serializer
        DeepKryoRegistrator.java
        util
        ExtractorClientUtil.java
    - test
      - java
        com
        stratio
        deep
        core
        context
        DeepSparkContextTest.java
        entity
        BookEntity.java
        CantoEntity.java
        MessageTestEntity.java
        MetadataEntity.java
        PlayerEntity.java
        SimpleBookEntity.java
        TeamEntity.java
        WordCount.java
        extractor
        ExtractorCellTest.java
        ExtractorEntityTest.java
        ExtractorTest.java
- deep-elasticsearch
  - src
    - main
      - java
        com
        stratio
        deep
        es
        config
        ESConfigFactory.java
        ESDeepJobConfig.java
        IESDeepJobConfig.java
        extractor
        ESCellExtractor.java
        ESEntityExtractor.java
        utils
        UtilES.java
    - test
      - java
        com
        stratio
        es
        ESCellRDDFT.java
        ESEntityRDDFT.java
        ESJavaRDDFT.java
        config
        CellDeepJobConfigESTest.java
        utils
        UtilESTest.java
- deep-jdbc
  - src
    - main
      - java
        com
        stratio
        deep
        jdbc
        config
        IJdbcDeepJobConfig.java
        JdbcConfigFactory.java
        JdbcDeepJobConfig.java
        JdbcNeo4JConfigFactory.java
        JdbcNeo4JDeepJobConfig.java
        extractor
        JdbcNativeCellExtractor.java
        JdbcNativeEntityExtractor.java
        JdbcNativeExtractor.java
        JdbcNeo4JNativeCellExtractor.java
        JdbcNeo4JNativeEntityExtractor.java
        JdbcNeo4JNativeExtractor.java
        reader
        IJdbcReader.java
        JdbcNeo4JReader.java
        JdbcReader.java
        utils
        UtilJdbc.java
        writer
        IJdbcWriter.java
        JdbcNeo4JWriter.java
        JdbcWriter.java
    - test
      - java
        com
        stratio
        deep
        jdbc
        JdbcCellExtractorFT.java
        JdbcEntityExtractorFT.java
        JdbcJavaRDDFT.java
        config
        CellDeepJobConfigJdbcNeo4JTest.java
        CellDeepJobConfigJdbcTest.java
        GenericConfigFactoryJdbcNeo4JTest.java
        GenericConfigFactoryJdbcTest.java
        JdbcConfigFactoryTest.java
        JdbcDeepJobConfigTest.java
        JdbcNeo4JConfigFactoryTest.java
        JdbcNeo4JDeepJobConfigTest.java
        extractor
        JdbcNativeCellExtractorTest.java
        JdbcNativeEntityExtractorTest.java
        JdbcNativeExtractorTest.java
        JdbcNeo4JNativeCellExtractorTest.java
        JdbcNeo4JNativeEntityExtractorTest.java
        JdbcNeo4JNativeExtractorTest.java
        reader
        JdbcNeo4JReaderTest.java
        JdbcReaderTest.java
        utils
        UtilJdbcTest.java
- deep-mongodb
  - src
    - main
      - java
        com
        stratio
        deep
        mongodb
        config
        IMongoDeepJobConfig.java
        MongoConfigFactory.java
        MongoDeepJobConfig.java
        extractor
        MongoCellExtractor.java
        MongoEntityExtractor.java
        MongoExtractor.java
        MongoNativeCellExtractor.java
        MongoNativeDBObjectExtractor.java
        MongoNativeEntityExtractor.java
        MongoNativeExtractor.java
        partition
        MongoPartition.java
        reader
        MongoReader.java
        utils
        UtilMongoDB.java
        writer
        MongoWriter.java
    - test
      - java
        com
        stratio
        deep
        mongodb
        MongoCellExtractorFT.java
        MongoEntityExtractorFT.java
        MongoJavaRDDFT.java
        MongoNativeCellExtractorFT.java
        MongoNativeEntityExtractorFT.java
        config
        CellDeepJobConfigMongoDBTest.java
        GenericConfigFactoryMongoDBTest.java
        MongoConfigFactoryTest.java
        MongoDeepJobConfigTest.java
        testentity
        MessageTestEntity.java
        MongoDBTestEntity.java
        utils
        UtilMongoDBTest.java

/*
 * Copyright 2014, Stratio.
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 * http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

package com.stratio.deep.cassandra.cql;

import static com.google.common.collect.Iterables.concat;
import static com.google.common.collect.Iterables.indexOf;
import static com.google.common.collect.Iterables.transform;
import static com.stratio.deep.commons.utils.Utils.quote;

import java.net.InetAddress;
import java.nio.ByteBuffer;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Map;
import java.util.Set;

import javax.annotation.Nullable;

import org.apache.cassandra.db.marshal.AbstractType;
import org.apache.cassandra.dht.IPartitioner;
import org.apache.cassandra.dht.Token;

import com.datastax.driver.core.Host;
import com.datastax.driver.core.Metadata;
import com.datastax.driver.core.ResultSet;
import com.datastax.driver.core.Row;
import com.datastax.driver.core.Session;
import com.google.common.base.Function;
import com.google.common.base.Predicate;
import com.google.common.collect.Iterables;
import com.google.common.collect.Lists;
import com.google.common.collect.Maps;
import com.google.common.collect.Ordering;
import com.google.common.collect.Sets;
import com.stratio.deep.cassandra.config.CassandraDeepJobConfig;
import com.stratio.deep.cassandra.config.ICassandraDeepJobConfig;
import com.stratio.deep.commons.exception.DeepGenericException;
import com.stratio.deep.commons.rdd.DeepTokenRange;
import com.stratio.deep.commons.utils.Pair;
import com.stratio.deep.commons.utils.Utils;

/**
 * Implementation that returns an instance of a {@link DeepRecordReader}.
 *
 * @author Luca Rosellini <luca@strat.io>
 */
public class RangeUtils {
    /**
     * private constructor.
     */
    private RangeUtils() {
    }

    /**
     * Gets the list of token for each cluster machine.<br/>
     * The concrete class of the token depends on the partitioner used.<br/>
     *
     * @param query           the query to execute against the given session to obtain the list of tokens.
     * @param sessionWithHost the pair object containing both the session and the name of the machine to which we're connected to.
     * @param partitioner     the partitioner used in the cluster.
     * @return a map containing, for each cluster machine, the list of tokens. Tokens are not returned in any particular
     * order.
     */
    static Map<String, Iterable<Comparable>> fetchTokens(String query, final Pair<Session, String> sessionWithHost,
                                                         IPartitioner partitioner) {

        ResultSet rSet = sessionWithHost.left.execute(query);

        final AbstractType tkValidator = partitioner.getTokenValidator();
        final Map<String, Iterable<Comparable>> tokens = Maps.newHashMap();

        Iterable<Pair<String, Iterable<Comparable>>> pairs =
                transform(rSet.all(), new FetchTokensRowPairFunction(sessionWithHost, tkValidator));

        for (Pair<String, Iterable<Comparable>> pair : pairs) {
            tokens.put(pair.left, pair.right);
        }

        return tokens;
    }

    /**
     * Merges the list of tokens for each cluster machine to a single list of token ranges.
     *
     * @param tokens  the map of tokens for each cluster machine.
     * @param session the connection to the cluster.
     * @param p       the partitioner used in the cluster.
     * @return the merged lists of tokens transformed to DeepTokenRange(s). The returned collection is shuffled.
     */
    static List<DeepTokenRange> mergeTokenRanges(Map<String, Iterable<Comparable>> tokens,
                                                 final Session session,
                                                 final IPartitioner p) {
        final Iterable<Comparable> allRanges = Ordering.natural().sortedCopy(concat(tokens.values()));

        final Comparable maxValue = Ordering.natural().max(allRanges);
        final Comparable minValue = (Comparable) p.minValue(maxValue.getClass()).getToken().token;

        Function<Comparable, Set<DeepTokenRange>> map =
                new MergeTokenRangesFunction(maxValue, minValue, session, p, allRanges);

        Iterable<DeepTokenRange> concatenated = concat(transform(allRanges, map));

        Set<DeepTokenRange> dedup = Sets.newHashSet(concatenated);

        return Ordering.natural().sortedCopy(dedup);
    }

    /**
     * Given a token, fetches the list of replica machines holding that token.
     *
     * @param token       the token whose replicas we want to fetch.
     * @param session     the connection to the cluster.
     * @param partitioner the partitioner used in the cluster.
     * @return the list of replica machines holding that token.
     */
    private static List<String> initReplicas(
            final Comparable token, final Session session, final IPartitioner partitioner) {
        final AbstractType tkValidator = partitioner.getTokenValidator();
        final Metadata metadata = session.getCluster().getMetadata();

        @SuppressWarnings("unchecked")
        Set<Host> replicas = metadata.getReplicas(quote(session.getLoggedKeyspace()),
                ByteBuffer.wrap(token.toString().getBytes()));

        return Lists.newArrayList(Iterables.transform(replicas, new Function<Host, String>() {
            @Nullable
            @Override
            public String apply(
                    @Nullable
                    Host input) {
                assert input != null;
                return input.getAddress().getHostName();
            }
        }));
    }

    /**
     * Returns the token ranges that will be mapped to Spark partitions.
     *
     * @param config the Deep configuration object.
     * @return the list of computed token ranges.
     */
    public static List<DeepTokenRange> getSplits(CassandraDeepJobConfig config) {
        Map<String, Iterable<Comparable>> tokens = new HashMap<>();
        IPartitioner p = getPartitioner(config);

        Pair<Session, String> sessionWithHost =
                CassandraClientProvider.getSession(
                        config.getHost(), config, false);

        String queryLocal = "select tokens from system.local";
        tokens.putAll(fetchTokens(queryLocal, sessionWithHost, p));

        String queryPeers = "select peer, tokens from system.peers";
        tokens.putAll(fetchTokens(queryPeers, sessionWithHost, p));

        List<DeepTokenRange> merged = mergeTokenRanges(tokens, sessionWithHost.left, p);
        return splitRanges(merged, p, config.getBisectFactor());
    }

    private static List<DeepTokenRange> splitRanges(
            final List<DeepTokenRange> ranges,
            final IPartitioner p,
            final int bisectFactor) {
        if (bisectFactor == 1) {
            return ranges;
        }

        Iterable<DeepTokenRange> bisectedRanges =
                concat(transform(ranges, new Function<DeepTokenRange, List<DeepTokenRange>>() {
                    @Nullable
                    @Override
                    public List<DeepTokenRange> apply(
                            @Nullable
                            DeepTokenRange input) {
                        final List<DeepTokenRange> splittedRanges = new ArrayList<>();
                        bisectTokeRange(input, p, bisectFactor, splittedRanges);
                        return splittedRanges;
                    }
                }));

        return Lists.newArrayList(bisectedRanges);
    }

    /**
     * Recursive function that splits a given token range to a given number of token ranges.
     *
     * @param range        the token range to be splitted.
     * @param partitioner  the cassandra partitioner.
     * @param bisectFactor the actual number of pieces the original token range will be splitted to.
     * @param accumulator  a token range accumulator (ne
     */
    private static void bisectTokeRange(
            DeepTokenRange range, final IPartitioner partitioner, final int bisectFactor,
            final List<DeepTokenRange> accumulator) {

        final AbstractType tkValidator = partitioner.getTokenValidator();

        Token leftToken = partitioner.getTokenFactory().fromByteArray(tkValidator.decompose(range.getStartToken()));
        Token rightToken = partitioner.getTokenFactory().fromByteArray(tkValidator.decompose(range.getEndToken()));
        Token midToken = partitioner.midpoint(leftToken, rightToken);

        Comparable midpoint = (Comparable) tkValidator.compose(tkValidator.fromString(midToken.toString()));

        DeepTokenRange left = new DeepTokenRange(range.getStartToken(), midpoint, range.getReplicas());
        DeepTokenRange right = new DeepTokenRange(midpoint, range.getEndToken(), range.getReplicas());

        if (bisectFactor / 2 <= 1) {
            accumulator.add(left);
            accumulator.add(right);
        } else {
            bisectTokeRange(left, partitioner, bisectFactor / 2, accumulator);
            bisectTokeRange(right, partitioner, bisectFactor / 2, accumulator);
        }
    }

    /**
     * Creates a new instance of the cassandra partitioner configured in the configuration object.
     *
     * @param config the Deep configuration object.
     * @return an instance of the cassandra partitioner configured in the configuration object.
     */
    public static IPartitioner getPartitioner(ICassandraDeepJobConfig config) {
        try {
            return (IPartitioner) Class.forName(config.getPartitionerClassName()).newInstance();
        } catch (ClassNotFoundException | InstantiationException | IllegalAccessException e) {
            throw new DeepGenericException(e);
        }
    }

    private static class FetchTokensRowPairFunction implements Function<Row, Pair<String, Iterable<Comparable>>> {
        private final Pair<Session, String> sessionWithHost;
        private final AbstractType tkValidator;

        public FetchTokensRowPairFunction(Pair<Session, String> sessionWithHost, AbstractType tkValidator) {
            this.sessionWithHost = sessionWithHost;
            this.tkValidator = tkValidator;
        }

        @Nullable
        @Override
        public Pair<String, Iterable<Comparable>> apply(final
                                                        @Nullable
                                                        Row row) {
            assert row != null;
            InetAddress host;
            try {
                host = row.getInet("peer");
            } catch (IllegalArgumentException e) {
                host = Utils.inetAddressFromLocation(sessionWithHost.right);
            }

            Iterable<Comparable> sortedTokens =
                    transform(row.getSet("tokens", String.class), new Function<String, Comparable>() {
                                @Nullable
                                @Override
                                public Comparable apply(final
                                                        @Nullable
                                                        String token) {
                                    return (Comparable) tkValidator.compose(tkValidator.fromString(token));
                                }
                            }
                    );

            return Pair.create(host.getHostName(), sortedTokens);
        }
    }

    /**
     * Function that converts a partitioner hash to a token range. Takes into account the ring wrap-around range.
     */
    private static class MergeTokenRangesFunction implements Function<Comparable, Set<DeepTokenRange>> {
        private final Comparable maxValue;
        private final Comparable minValue;
        private final Session session;
        private final IPartitioner partitioner;
        private final Iterable<Comparable> allRanges;

        public MergeTokenRangesFunction(Comparable maxValue,
                                        Comparable minValue,
                                        Session session,
                                        IPartitioner partitioner,
                                        Iterable<Comparable> allRanges) {
            this.maxValue = maxValue;
            this.minValue = minValue;
            this.session = session;
            this.partitioner = partitioner;
            this.allRanges = allRanges;
        }

        @Override
        public Set<DeepTokenRange> apply(final Comparable elem) {
            Comparable nextValue;
            Comparable currValue = elem;

            Set<DeepTokenRange> result = new HashSet<>();

            if (currValue.equals(maxValue)) {

                result.add(new DeepTokenRange(currValue, minValue,
                        initReplicas(currValue, session, partitioner)));
                currValue = minValue;

                nextValue = Iterables.find(allRanges, new Predicate<Comparable>() {
                    @Override
                    @SuppressWarnings("unchecked")
                    public boolean apply(
                            @Nullable
                            Comparable input) {
                        assert input != null;
                        return input.compareTo(minValue) > 0;
                    }
                });

            } else {

                int nextIdx = 1 + indexOf(allRanges, new Predicate<Comparable>() {
                    @Override
                    public boolean apply(
                            @Nullable
                            Comparable input) {
                        assert input != null;
                        return input.equals(elem);
                    }
                });
                nextValue = Iterables.get(allRanges, nextIdx);
            }

            result.add(new DeepTokenRange(currValue, nextValue, initReplicas(currValue, session, partitioner)));

            return result;
        }
    }

    /**
     * Returns the token ranges that will be mapped to Spark partitions.
     *
     * @param config the Deep configuration object.
     * @return the list of computed token ranges.
     */
    public static List<DeepTokenRange> getSplitsBySize(
            CassandraDeepJobConfig config) {

        IPartitioner p = getPartitioner(config);
        AbstractType tokenValidator = p.getTokenValidator();

        Pair<Session, String> sessionWithHost = CassandraClientProvider
                .getSession(config.getHost(), config, false);

        String query = new StringBuilder("CALCULATE SPLITS FROM ")
                .append(config.getKeyspace()).append(".")
                .append(config.getTable()).append(" ESTIMATING ")
                .append(config.getSplitSize()).toString();
        ResultSet rSet = sessionWithHost.left.execute(query);

        List<DeepTokenRange> tokens = new ArrayList<>();

        for (Row row : rSet.all()) {
            Comparable startToken = (Comparable) tokenValidator.compose(row
                    .getBytesUnsafe("start_token"));
            Comparable endToken = (Comparable) tokenValidator.compose(row
                    .getBytesUnsafe("end_token"));
            List<String> replicas = new ArrayList<>();
            for (InetAddress addres : row.getList("preferred_locations",
                    InetAddress.class)) {
                replicas.add(addres.getHostName());
            }
            tokens.add(new DeepTokenRange(startToken, endToken, replicas));
        }
        return tokens;
    }
}