SetSimilarityUDF.java example

Explorer

brickhouse-master
- src
  - main
    - java
      - brickhouse
        analytics
        uniques
        ICountDistinct.java
        SketchSet.java
        hbase
        BalancedKeySaltUDF.java
        BatchGetUDF.java
        BatchPutUDAF.java
        CachedGetUDF.java
        GenerateBalancedKeyUDF.java
        GetUDF.java
        HTableFactory.java
        PutUDF.java
        SaltedBigIntUDF.java
        hive
        hook
        PrintQueryHook.java
        udf
        bloom
        BloomAndUDF.java
        BloomContainsUDF.java
        BloomFactory.java
        BloomFilter.java
        BloomNotUDF.java
        BloomOrUDF.java
        BloomUDAF.java
        DistributedBloomUDF.java
        collect
        AbstractCollectMergeUDAF.java
        AppendArrayUDF.java
        ArrayFlattenUDF.java
        ArrayIndexOfUDF.java
        ArrayIndexUDF.java
        ArrayIntersectUDF.java
        ArrayRangeUDF.java
        ArrayUnionUDF.java
        CastArrayUDF.java
        CastMapUDF.java
        CollectDistinctUDAF.java
        CollectMaxUDAF.java
        CollectMergeMaxUDAF.java
        CollectMinUDAF.java
        CollectUDAF.java
        CombineUDF.java
        CombineUniqueUDAF.java
        ConditionalEmit.java
        CreateWithPrimitive.java
        FirstIndexUDF.java
        FirstOfGroupUDAF.java
        GroupCountUDF.java
        JoinArrayUDF.java
        LastIndexUDF.java
        MapFilterKeysUDF.java
        MapIndexUDF.java
        MapKeyValuesUDF.java
        MapRemoveKeysUDF.java
        MultiDayCounterUDAF.java
        MurmurHash3ArrayUDF.java
        MurmurHash3UDF.java
        NumericRange.java
        SessionizeUDF.java
        SetDifferenceUDF.java
        TruncateArrayUDF.java
        UnionMaxUDAF.java
        UnionUDAF.java
        date
        AddDaysUDF.java
        AddISOPeriodUDF.java
        DateRangeUDTF.java
        DayDiffUDF.java
        dcache
        DistributedMapUDF.java
        hll
        CombineHyperLogLogUDF.java
        EstimateCardinalityUDF.java
        HLLBuffer.java
        HyperLogLogUDAF.java
        UnionHyperLogLogUDAF.java
        json
        ConvertFromCamelCaseUDF.java
        ConvertToCamelCaseUDF.java
        FromJsonUDF.java
        InspectorHandle.java
        JsonMapUDF.java
        JsonSplitUDF.java
        ToJsonUDF.java
        sanity
        AssertEqualsUDF.java
        AssertLessThanUDF.java
        AssertUDF.java
        ThrowErrorUDF.java
        WriteToGraphiteUDF.java
        WriteToTSDBUDF.java
        sketch
        CombinePreviousSketchUDF.java
        CombineSketchUDF.java
        ConvertToSketchUDF.java
        EstimatedReachUDF.java
        HashMD5UDF.java
        Md5.java
        MultiDaySketcherUDAF.java
        SetSimilarityUDF.java
        SketchHashesUDF.java
        SketchSetBuffer.java
        SketchSetUDAF.java
        UnionSketchSetUDAF.java
        timeseries
        MovingAvgUDF.java
        MovingStdevUDF.java
        NumericUtil.java
        SumArrayUDF.java
        VectorAddUDF.java
        VectorCrossProductUDF.java
        VectorDotProductUDF.java
        VectorMagnitudeUDF.java
        VectorMultUDF.java
        VectorNormalizeUDF.java
        VectorUnionSumUDAF.java
  - test
    - java
      - brickhouse
        analytics
        uniques
        SketchSetTest.java
        udf
        bloom
        BloomTest.java
        collect
        ArrayUnionUDFTest.java
        CollectDistinctUDFTest.java
        CollectMaxTest.java
        date
        AddISOPeriodUDFTest.java
        hll
        HyperLogLogUDAFTest.java
        json
        JsonSplitUDFTest.java
        JsonUDFTest.java
        timeseries
        TimeSeriesTest.java

package brickhouse.udf.sketch;

import brickhouse.analytics.uniques.SketchSet;
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDF;

import java.util.List;

/**
 * Compute the Jaccard similarity of two sketch sets.
 * <p/>
 * Jaccard Similarity is defined as the size of the intersection of two sets divided by the
 * size of the union of the sets. Since sketches are only approximate measures, this
 * calculation only makes sense when the sets are roughly the same size.
 */
@Description(name = "set_similarity",
        value = "_FUNC_(a,b) - Compute the Jaccard set similarity of two sketch sets. "
)
public class SetSimilarityUDF extends UDF {

    public Double evaluate(List<String> a, List<String> b) {
        if (a == null || b == null)
            return null;
        if (a.size() == 0 || b.size() == 0) {
            return 0.0;
        }
        /// For now, assume min sketch size is 5000...
        /// otherwise it is better to use array_intersect
        /// XXX TODO convert to GenericUDF, so that it can be passed in
        ///  as an argument
        int sketchSize = Math.max(a.size(), b.size());
        if (sketchSize < SketchSetUDAF.DEFAULT_SKETCH_SET_SIZE)
            sketchSize = SketchSetUDAF.DEFAULT_SKETCH_SET_SIZE;

        SketchSet sketchA = new SketchSet(sketchSize);
        SketchSet sketchB = new SketchSet(sketchSize);
        SketchSet sketchAUB = new SketchSet(sketchSize);


        for (String aStr : a) {
            sketchA.addItem(aStr);
            sketchAUB.addItem(aStr);
        }
        for (String bStr : b) {
            sketchB.addItem(bStr);
            sketchAUB.addItem(bStr);
        }

        double aEst = sketchA.estimateReach();
        double bEst = sketchB.estimateReach();
        double aubEst = sketchAUB.estimateReach();

        /// Intersection is
        double ainterb = aEst + bEst - aubEst;
        double sim = ainterb / aubEst;

        return sim;
    }
}