BytesUtils.java example

Explorer

elasticsearch-hadoop-master
- cascading
  - src
    - itest
      - java
        org
        elasticsearch
        hadoop
        integration
        cascading
        AbstractCascadingHadoopJsonReadTest.java
        AbstractCascadingHadoopJsonSaveTest.java
        AbstractCascadingHadoopJsonSearchTest.java
        AbstractCascadingHadoopSaveTest.java
        AbstractCascadingHadoopSearchTest.java
        AbstractCascadingLocalJsonReadTest.java
        AbstractCascadingLocalJsonSaveTest.java
        AbstractCascadingLocalJsonSearchTest.java
        AbstractCascadingLocalSaveTest.java
        AbstractCascadingLocalSearchTest.java
        CascadingHadoopSuite.java
        CascadingLocalSuite.java
        ExtendedLocalFlowConnector.java
        HadoopPrintStreamTap.java
        OutputStreamTap.java
        StatsUtils.java
        lingual
        EsFactoryTest.java
    - main
      - java
        org
        elasticsearch
        hadoop
        cascading
        CascadingFieldExtractor.java
        CascadingLocalBytesConverter.java
        CascadingUtils.java
        CascadingValueWriter.java
        EsHadoopScheme.java
        EsHadoopTap.java
        EsLocalScheme.java
        EsLocalTap.java
        EsTap.java
        lingual
        EsFactory.java
        package-info.java
        package-info.java
- hive
  - src
    - itest
      - java
        org
        elasticsearch
        hadoop
        integration
        hive
        AbstractHiveExtraTests.java
        AbstractHiveReadJsonTest.java
        AbstractHiveSaveJsonTest.java
        AbstractHiveSaveTest.java
        AbstractHiveSearchJsonTest.java
        AbstractHiveSearchTest.java
        HiveEmbeddedServer2.java
        HiveInstance.java
        HiveJdbc.java
        HiveSuite.java
    - main
      - java
        org
        elasticsearch
        hadoop
        hive
        EsHiveInputFormat.java
        EsHiveOutputFormat.java
        EsSerDe.java
        EsStorageHandler.java
        HiveBytesArrayWritable.java
        HiveBytesConverter.java
        HiveConstants.java
        HiveFieldExtractor.java
        HiveType.java
        HiveUtils.java
        HiveValueReader.java
        HiveValueWriter.java
        HiveWritableValueWriter.java
        package-info.java
    - test
      - java
        org
        elasticsearch
        hadoop
        hive
        FieldAliasTest.java
        HiveValueReaderTest.java
        serialization
        HiveFieldExtractorTests.java
        HiveTypeToJsonTest.java
- mr
  - src
- pig
  - src
    - itest
      - java
        org
        elasticsearch
        hadoop
        integration
        pig
        AbstractPigExtraTests.java
        AbstractPigReadAsJsonTest.java
        AbstractPigSaveJsonTest.java
        AbstractPigSaveTest.java
        AbstractPigSearchJsonTest.java
        AbstractPigSearchTest.java
        AbstractPigTests.java
        PigSuite.java
        PigWrapper.java
    - main
      - java
        org
        elasticsearch
        hadoop
        pig
        EsPigInputFormat.java
        EsStorage.java
        PigBytesConverter.java
        PigFieldExtractor.java
        PigTuple.java
        PigUtils.java
        PigValueReader.java
        PigValueWriter.java
        package-info.java
    - test
      - java
        org
        elasticsearch
        hadoop
        pig
        DateIndexFormatterTest.java
        JsonUtils.java
        PigJsonTest.java
        PigSchemaSaveTest.java
        serialization
        PigFieldExtractorTest.java
        PigNamedTypeToJsonTest.java
        PigTypeToJsonTest.java
- spark
  - core
    - itest
      - java
        org
        elasticsearch
        spark
        integration
        AbstractHadoopBasicSparkTest.java
        AbstractJavaEsSparkTest.java
        SparkSuite.java
        SparkUtils.java
      - scala
        org
        elasticsearch
        spark
        integration
        SparkScalaSuite.java
    - main
      - scala
        org
        elasticsearch
        spark
        cfg
        SparkSettings.java
        SparkSettingsManager.java
        package-info.java
        rdd
        CompatUtils.java
        Metadata.java
        api
        java
        package-info.java
    - test
      - scala
        org
        elasticsearch
        spark
        serialization
        Bean.java
  - sql-13
    - src
      - itest
        java
        org
        elasticsearch
        spark
        integration
        AbstractJavaEsSparkSQLTest.java
        AbstractJavaEsSparkStreamingTest.java
        SparkSQLSuite.java
        SparkStreamingSuite.java
        sql
        UtilsTest.java
        scala
        org
        elasticsearch
        spark
        integration
        SparkSQLScalaSuite.java
        SparkStreamingScalaSuite.java
      - main
        scala
        org
        elasticsearch
        spark
        sql
        Utils.java
        api
        java
        package-info.java
        streaming
        api
        java
        package-info.java
  - sql-20
    - src
      - itest
        java
        org
        apache
        hadoop
        util
        ShutdownHookManager.java
        elasticsearch
        spark
        integration
        AbstractJavaEsSparkSQLTest.java
        AbstractJavaEsSparkStreamingTest.java
        SparkSQLSuite.java
        SparkStreamingSuite.java
        sql
        UtilsTest.java
        scala
        org
        elasticsearch
        spark
        integration
        SparkSQLScalaSuite.java
        SparkStreamingScalaSuite.java
      - main
        scala
        org
        elasticsearch
        spark
        sql
        Utils.java
        api
        java
        package-info.java
        streaming
        api
        java
        package-info.java
- storm
  - src
    - itest
      - java
        org
        elasticsearch
        integration
        storm
        AbstractSpoutMultiIndexRead.java
        AbstractSpoutSimpleRead.java
        AbstractSpoutSimpleReadWithQuery.java
        AbstractStormBoltTests.java
        AbstractStormIdMappingBoltTests.java
        AbstractStormIndexPatternBoltTests.java
        AbstractStormJsonSimpleBoltTests.java
        AbstractStormSimpleBoltTests.java
        AbstractStormSpoutTests.java
        AbstractStormSuite.java
        CapturingBolt.java
        Counter.java
        IdMappingBoltStormSuite.java
        IndexPatternBoltStormSuite.java
        MultiIndexSpoutStormSuite.java
        RandomSentenceSpout.java
        SimpleBoltStormSuite.java
        SimpleJsonBoltStormSuite.java
        SimpleReadSpoutStormSuite.java
        SimpleReadWithQuerySpoutStormSuite.java
        TestBolt.java
        TestSpout.java
    - main
      - java
        org
        elasticsearch
        storm
        EsBolt.java
        EsSpout.java
        TupleUtils.java
        cfg
        StormConfigurationOptions.java
        StormSettings.java
        TupleFailureHandling.java
        serialization
        StormTupleBytesConverter.java
        StormTupleFieldExtractor.java
        StormValueWriter.java
- yarn
  - src
    - itest
      - java
        org
        elasticsearch
        hadoop
        integration
        yarn
        YarnSuite.java
        YarnTest.java
        YarnTestCluster.java
        junit
        rules
        ChainedExternalResource.java
    - main
      - java
        org
        elasticsearch
        hadoop
        yarn
        EsYarnConstants.java
        EsYarnException.java
        am
        AppMasterRpc.java
        ApplicationMaster.java
        EsCluster.java
        EsYarnAmException.java
        EsYarnNmException.java
        NodeMasterRpc.java
        cfg
        Config.java
        cli
        YarnBootstrap.java
        client
        ClientRpc.java
        YarnLauncher.java
        compat
        YarnCompat.java
        rpc
        YarnRpc.java
        util
        Assert.java
        HttpDownloader.java
        IOUtils.java
        PropertiesUtils.java
        ReflectionUtils.java
        StringUtils.java
        YarnUtils.java

/*
 * Licensed to Elasticsearch under one or more contributor
 * license agreements. See the NOTICE file distributed with
 * this work for additional information regarding copyright
 * ownership. Elasticsearch licenses this file to you under
 * the Apache License, Version 2.0 (the "License"); you may
 * not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *    http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing,
 * software distributed under the License is distributed on an
 * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 * KIND, either express or implied.  See the License for the
 * specific language governing permissions and limitations
 * under the License.
 */
package org.elasticsearch.hadoop.util;

import java.util.Arrays;

public abstract class BytesUtils {

    /**
     * Counts the chars within a given, UTF-8 stream and matches the given char positions to the stream
     * byte positions, which are being returned.
     *
     * @param stream UTF-8 byte stream
     * @param charPositions char positions to be matched in the stream
     * @return byte positions matching the char ones
     */
    // the algo is pretty simple:
    // 1. sorts out the char positions for easy matching
    // 2. iterate through the stream and count each char position
    // 3. match the byte positions back to the original char positions

    // Note that a Unicode code point is one char (in UTF-16 and thus Java) in BMP and two outside of it
    // this translates to up to 3 bytes in UTF-8 or 4 outside of it. However since method counts chars
    // and not code points, chars that indicate a surrogate (part of a non-BMP code point) are counted
    // as 2 bytes.

    public static int[] charToBytePosition(BytesArray ba, int... charPositions) {

        //StringBuilder sb = new StringBuilder(ba.length());
        //String string = ba.toString();

        int[] results = Arrays.copyOf(charPositions, charPositions.length);
        Arrays.fill(results, -1);
        int[] charOffsets = Arrays.copyOf(charPositions, charPositions.length);
        // sort positions (just in case)
        Arrays.sort(charOffsets);

        int charOffsetIndex = 0;
        int currentCharOffset = 0;

        int byteIndex = ba.offset;
        final int limit = ba.size;
        byte[] bytes = ba.bytes;

        boolean outsideBMP = false;

        while (byteIndex < limit) {
            int delta = 0;

            // it's within an outside BMP (plane 0) code point
            if (outsideBMP) {
                delta = 2;
                outsideBMP = false;
            }
            else {
                int b = bytes[byteIndex] & 0xff;

                delta = (b < 0xc0 ? 1 : b < 0xe0 ? 2 : b < 0xf0 ? 3 : 4);
                outsideBMP = (delta == 4);
                // break the byte stepping into the char surrogates
                if (outsideBMP) {
                    delta = 2;
                }
            }

            while (charOffsets[charOffsetIndex] == currentCharOffset) {
                results[charOffsetIndex] = byteIndex;
                // pick the next char offset to look for
                if (charOffsetIndex + 1 < charOffsets.length) {
                    charOffsetIndex++;
                }
                else {
                    break;
                }
            }

            //sb.append("b=" + byteIndex + ";c=" + currentCharOffset + " -> " + string.charAt(currentCharOffset));
            //sb.append("\n");
            byteIndex += delta;
            currentCharOffset++;
        }

        //System.out.println(sb);

        // return the results according to the original char position
        // as there might be duplicates (which mess out sorting) do a copy
        int[] finalResults = Arrays.copyOf(results, results.length);
        for (int originalPosition = 0; originalPosition < charPositions.length; originalPosition++) {
            int sortedPosition = Arrays.binarySearch(charOffsets, charPositions[originalPosition]);
            finalResults[originalPosition] = results[sortedPosition];
        }

        return finalResults;
    }

    /**
     * Removes the white space from the given byte array. White space is defined in the context of UTF-8 JSON
     * aka space, horizontal tab, line feed and carriage return.
     *
     * @param source
     * @param offset
     * @param length
     * @return
     */
    public static int trimLeft(byte[] source, int start, int stop) {
        for (int i = start; i < stop; i++) {
            if (!isWhitespace(source[i])) {
                return i;
            }
        }
        return stop;
    }


    public static int trimRight(byte[] source, int start, int stop) {
        for (int i = stop; i > start; i--) {
            if (!isWhitespace(source[i])) {
                return i;
            }
        }
        return start;
    }

    private static boolean isWhitespace(byte current) {
        return current == 0x20 || current == 0x0d || current == 0x0a || current == 0x09;
    }
}