GroupCountUDF.java example

Explorer

brickhouse-master
- src
  - main
    - java
      - brickhouse
        analytics
        uniques
        ICountDistinct.java
        SketchSet.java
        hbase
        BalancedKeySaltUDF.java
        BatchGetUDF.java
        BatchPutUDAF.java
        CachedGetUDF.java
        GenerateBalancedKeyUDF.java
        GetUDF.java
        HTableFactory.java
        PutUDF.java
        SaltedBigIntUDF.java
        hive
        hook
        PrintQueryHook.java
        udf
        bloom
        BloomAndUDF.java
        BloomContainsUDF.java
        BloomFactory.java
        BloomFilter.java
        BloomNotUDF.java
        BloomOrUDF.java
        BloomUDAF.java
        DistributedBloomUDF.java
        collect
        AbstractCollectMergeUDAF.java
        AppendArrayUDF.java
        ArrayFlattenUDF.java
        ArrayIndexOfUDF.java
        ArrayIndexUDF.java
        ArrayIntersectUDF.java
        ArrayRangeUDF.java
        ArrayUnionUDF.java
        CastArrayUDF.java
        CastMapUDF.java
        CollectDistinctUDAF.java
        CollectMaxUDAF.java
        CollectMergeMaxUDAF.java
        CollectMinUDAF.java
        CollectUDAF.java
        CombineUDF.java
        CombineUniqueUDAF.java
        ConditionalEmit.java
        CreateWithPrimitive.java
        FirstIndexUDF.java
        FirstOfGroupUDAF.java
        GroupCountUDF.java
        JoinArrayUDF.java
        LastIndexUDF.java
        MapFilterKeysUDF.java
        MapIndexUDF.java
        MapKeyValuesUDF.java
        MapRemoveKeysUDF.java
        MultiDayCounterUDAF.java
        MurmurHash3ArrayUDF.java
        MurmurHash3UDF.java
        NumericRange.java
        SessionizeUDF.java
        SetDifferenceUDF.java
        TruncateArrayUDF.java
        UnionMaxUDAF.java
        UnionUDAF.java
        date
        AddDaysUDF.java
        AddISOPeriodUDF.java
        DateRangeUDTF.java
        DayDiffUDF.java
        dcache
        DistributedMapUDF.java
        hll
        CombineHyperLogLogUDF.java
        EstimateCardinalityUDF.java
        HLLBuffer.java
        HyperLogLogUDAF.java
        UnionHyperLogLogUDAF.java
        json
        ConvertFromCamelCaseUDF.java
        ConvertToCamelCaseUDF.java
        FromJsonUDF.java
        InspectorHandle.java
        JsonMapUDF.java
        JsonSplitUDF.java
        ToJsonUDF.java
        sanity
        AssertEqualsUDF.java
        AssertLessThanUDF.java
        AssertUDF.java
        ThrowErrorUDF.java
        WriteToGraphiteUDF.java
        WriteToTSDBUDF.java
        sketch
        CombinePreviousSketchUDF.java
        CombineSketchUDF.java
        ConvertToSketchUDF.java
        EstimatedReachUDF.java
        HashMD5UDF.java
        Md5.java
        MultiDaySketcherUDAF.java
        SetSimilarityUDF.java
        SketchHashesUDF.java
        SketchSetBuffer.java
        SketchSetUDAF.java
        UnionSketchSetUDAF.java
        timeseries
        MovingAvgUDF.java
        MovingStdevUDF.java
        NumericUtil.java
        SumArrayUDF.java
        VectorAddUDF.java
        VectorCrossProductUDF.java
        VectorDotProductUDF.java
        VectorMagnitudeUDF.java
        VectorMultUDF.java
        VectorNormalizeUDF.java
        VectorUnionSumUDAF.java
  - test
    - java
      - brickhouse
        analytics
        uniques
        SketchSetTest.java
        udf
        bloom
        BloomTest.java
        collect
        ArrayUnionUDFTest.java
        CollectDistinctUDFTest.java
        CollectMaxTest.java
        date
        AddISOPeriodUDFTest.java
        hll
        HyperLogLogUDAFTest.java
        json
        JsonSplitUDFTest.java
        JsonUDFTest.java
        timeseries
        TimeSeriesTest.java

package brickhouse.udf.collect;

/**
 * Copyright 2012 Klout, Inc
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *    http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 *
 **/

import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDF;


/**
 * GroupCountUDF provides a sequence number for all rows which have the
 * same value for a particular grouping.
 * This allows us to count how many rows are in a grouping and cap them
 * off after a certain point.
 * <p/>
 * <p>For example, we can cap-off the number of records per ks_uid with something like
 * <p/>
 * select
 * ks_uid, val, group_count(ks_uid) as rank
 * from
 * (  select ks_uid, val from table1
 * distribute  by ks_uid
 * sort by ks_uid, val ) ordered_keys
 * where group_count( ks_uid ) < 100
 */
@Description(
        name = "group_count",
        value = " A sequence id for all rows with the same value for a specific grouping"
)
public class GroupCountUDF extends UDF {
    private String lastGrouping = null;
    private int lastCount = 0;

    public Integer evaluate(String grouping) {
        // First time through ...
        if (lastGrouping == null) {
            lastGrouping = grouping;
            lastCount = 1;
            return 0;
        }
        if (lastGrouping != null
                && lastGrouping.equals(grouping)) {
            int retVal = lastCount;
            lastCount++;
            return retVal;
        } else {
            lastCount = 1;
            lastGrouping = grouping;
            return 0;
        }

    }
}