ProbabilityEnrichStrategy.java example

Explorer

quickml-master
- src
  - main
    - java
      - quickml
        MathUtils.java
        collections
        MapUtils.java
        ValueSummingMap.java
        data
        AttributesMap.java
        NegativeWeightsFilter.java
        OnespotDateTimeExtractor.java
        PredictionMap.java
        instances
        ClassifierInstance.java
        ClassifierInstanceFactory.java
        Instance.java
        InstanceFactory.java
        InstanceImpl.java
        InstanceWithAttributesMap.java
        RegressionInstance.java
        RidgeInstance.java
        SparseClassifierInstanceFactory.java
        SparseRegressionInstance.java
        experiments
        GeoDistance.java
        TrainingDataGenerator2.java
        kin88nm.java
        supervised
        EnhancedPredictiveModelBuilder.java
        PredictiveModel.java
        PredictiveModelBuilder.java
        PredictiveModelsFromPreviousVersionsToBenchMarkAgainst
        OldScorer.java
        OldTree.java
        OldTreeBuilder.java
        oldScorers
        GiniImpurityOldScorer.java
        InformationGainOldScorer.java
        MSEOldScorer.java
        MSEOldScorerWithCrossValidationCorrection.java
        SplitDiffOldScorer.java
        oldTree
        OldAttributeValueWithClassificationCounter.java
        OldBranch.java
        OldCategoricalOldBranch.java
        OldClassificationCounter.java
        OldLeaf.java
        OldNode.java
        OldNumericBranch.java
        oldAttributeIgnoringStrategies
        AttributeIgnoringStrategy.java
        AttributeName.java
        AttributeNameAndParent.java
        AttributeProperties.java
        CompositeAttributeIgnoringStrategy.java
        IgnoreAttributesInSet.java
        IgnoreAttributesWithConstantProbability.java
        Utils.java
        calibratedPredictiveModel
        CalibratedClassifier.java
        classifier
        AbstractClassifier.java
        Classifier.java
        Classifiers.java
        downsampling
        DownsamplingClassifier.java
        DownsamplingClassifierBuilder.java
        DownsamplingUtils.java
        RandomDroppingInstanceFilter.java
        package-info.java
        logisticRegression
        DataTransformer.java
        DatedAndMeanNormalizedLogisticRegressionDataTransformer.java
        GradientDescent.java
        InstanceTransformerUtils.java
        LogisticRegression.java
        LogisticRegressionBuilder.java
        LogisticRegressionDTO.java
        MeanNormalizedAndDatedLogisticRegressionDTO.java
        SparseClassifierInstance.java
        SparseSGD.java
        StandardDataTransformer.java
        TransformedData.java
        TransformedDataWithDates.java
        splitOnAttribute
        SplitOnAttributeClassifier.java
        SplitOnAttributeClassifierBuilder.java
        SplitValTGroupIdMap.java
        temporallyWeightClassifier
        TemporallyReweightedClassifier.java
        TemporallyReweightedClassifierBuilder.java
        twoStageModel
        TwoStageClassifier.java
        TwoStageModelBuilder.java
        collaborativeFiltering
        CollaborativeFilter.java
        UserItem.java
        gradientDescent
        GradientDescentCF.java
        crossValidation
        ClassifierLossChecker.java
        CrossValidator.java
        EnhancedCrossValidator.java
        InstanceTargetSelector.java
        LossChecker.java
        MultiTargetLossChecker.java
        PredictionMapResult.java
        PredictionMapResults.java
        RegressionLossChecker.java
        SimpleCrossValidator.java
        SimpleCrossValidatorWithWriter.java
        attributeImportance
        AttributeImportanceFinder.java
        AttributeImportanceFinderBuilder.java
        AttributeLossSummary.java
        AttributeLossTracker.java
        AttributeWithLoss.java
        LossFunctionTracker.java
        RegAttributeImportanceFinder.java
        RegAttributeImportanceFinderBuilder.java
        RegAttributeLossSummary.java
        RegAttributeLossTracker.java
        RegLossFunctionTracker.java
        data
        FoldedData.java
        FoldedDataFactory.java
        OutOfTimeData.java
        OutOfTimeDataFactory.java
        TrainingDataCycler.java
        TrainingDataCyclerFactory.java
        genAttributeImportance
        AttributeImportanceFinder.java
        AttributeImportanceFinderBuilder.java
        AttributeLossSummary.java
        AttributeLossTracker.java
        AttributeWithLoss.java
        LossFunctionTracker.java
        lossfunctions
        LabelPredictionWeight.java
        LossFunction.java
        LossFunctionCorrectedForDownsampling.java
        LossFunctions.java
        classifierLossFunctions
        ClassifierLogCVLossFunction.java
        ClassifierLossFunction.java
        ClassifierMSELossFunction.java
        ClassifierRMSELossFunction.java
        WeightedAUCCrossValLossFunction.java
        rankingLossFunctions
        NDCG.java
        RankingLossFunction.java
        regressionLossFunctions
        RegressionLossFunction.java
        RegressionRMSELossFunction.java
        movingAverages
        ArithmeticAverage.java
        HoltWintersMovingAverage.java
        MovingAverage.java
        utils
        AttributesHashSplitter.java
        DateTimeExtractor.java
        MeanNormalizedDateTimeExtractor.java
        SimpleDateFormatExtractor.java
        dataProcessing
        AttributeCharacteristics.java
        BasicTrainingDataSurveyor.java
        BinaryAttributeCharacteristics.java
        ElementaryDataTransformer.java
        instanceTranformer
        BinaryAndNumericAttributeNormalizer.java
        ClassifierInstance2SparseClassifierInstance.java
        CommonCoocurrenceProductFeatureAppender.java
        InstanceTransformer.java
        LabelToDigitConverter.java
        MeanNormalizeAllNumericAttributes.java
        OneHotEncoder.java
        ProductFeatureAppender.java
        ensembles
        randomForest
        RandomForest.java
        RandomForestBuilder.java
        randomDecisionForest
        RandomDecisionForest.java
        RandomDecisionForestBuilder.java
        randomRegressionForest
        RandomRegressionForest.java
        RandomRegressionForestBuilder.java
        featureEngineering1
        AttributesEnrichStrategy.java
        AttributesEnricher.java
        FeatureEngineeredClassifier.java
        FeatureEngineeringClassifierBuilder.java
        InstanceEnricher.java
        enrichStrategies
        attributeCombiner
        AttributeCombiningEnrichStrategy.java
        AttributeCombiningEnricher.java
        probabilityInjector
        ProbabilityEnrichStrategy.java
        ProbabilityInjectingEnricher.java
        inspection
        AttributeScore.java
        CategoricalDistributionSampler.java
        NumericDistributionSampler.java
        RandomForestDumper.java
        parametricModels
        LinearDerivative.java
        LogisticDerivative.java
        OptimizableCostFunction.java
        OptimizableCostFunctionImp.java
        ParallelizedLogisticDerivative.java
        SGD.java
        predictiveModelOptimizer
        ConfigWithLoss.java
        FieldValueRecommender.java
        MultiLossModelTester.java
        PredictiveModelOptimizer.java
        SimplePredictiveModelOptimizerBuilder.java
        fieldValueRecommenders
        FixedOrderRecommender.java
        MonotonicConvergenceRecommender.java
        rankingModels
        ItemToOutcomeMap.java
        LabelPredictionWeightForRanking.java
        RankingInstance.java
        RankingLossChecker.java
        RankingModel.java
        RankingPrediction.java
        Utils.java
        regressionModel
        IsotonicRegression
        PoolAdjacentViolatorsModel.java
        LinearRegression
        RidgeLinearModel.java
        RidgeLinearModelBuilder.java
        LinearRegression2
        LinearModel.java
        LinearRegressionDTO.java
        MeanNormalizedAndDatedLinearRegressionDTO.java
        SimpleRidgeRegressionBuilder.java
        MultiVariableRealValuedFunction.java
        SingleVariableRealValuedFunction.java
        tree
        Tree.java
        TreeBuilderHelper.java
        attributeIgnoringStrategies
        AttributeIgnoringStrategy.java
        CompositeAttributeIgnoringStrategy.java
        IgnoreAttributesInSet.java
        IgnoreAttributesWithConstantProbability.java
        attributeValueIgnoringStrategies
        AttributeValueIgnoringStrategy.java
        AttributeValueIgnoringStrategyBuilder.java
        bagging
        Bagging.java
        StationaryBagging.java
        branchFinders
        BranchFinder.java
        BranchFinderAndReducerFactory.java
        NumericBranchFinder.java
        SortableLabelsCategoricalBranchFinder.java
        SplittingUtils.java
        branchFinderBuilders
        AlternativeSelction.java
        BranchFinderBuilder.java
        branchingConditions
        BranchingConditions.java
        StandardBranchingConditions.java
        constants
        AttributeType.java
        BranchType.java
        ForestOptions.java
        MissingValue.java
        decisionTree
        DecisionTree.java
        DecisionTreeBuilder.java
        DecisionTreeBuilderHelper.java
        DecisionTreeVisualizer.java
        OptimizedDecisionForest.java
        attributeValueIgnoringStrategies
        BinaryClassAttributeValueIgnoringStrategy.java
        BinaryClassAttributeValueIgnoringStrategyBuilder.java
        MultiClassAtributeValueIgnoringStrategy.java
        MultiClassAttributeValueIgnoringStrategyBuilder.java
        branchFinders
        DTBinaryCatBranchFinder.java
        DTNClassCatBranchFinder.java
        DTNumBranchFinder.java
        OldBinCatBranchFinder.java
        branchFinderBuilders
        DTBinaryCatBranchFinderBuilder.java
        DTBranchFinderBuilder.java
        DTCatBranchFinderBuilder.java
        DTNumBranchFinderBuilder.java
        OldBinaryCatBranchFinderBuilder.java
        branchingConditions
        DTBranchingConditions.java
        nodes
        DTCatBranch.java
        DTLeaf.java
        DTLeafBuilder.java
        DTNumBranch.java
        reducers
        DTBinaryCatBranchReducer.java
        DTCatBranchReducer.java
        DTNumBranchReducer.java
        DTOldCatBranchReducer.java
        DTreeReducer.java
        reducerFactories
        DTBinaryCatBranchReducerFactory.java
        DTCatBranchReducerFactory.java
        DTNumBranchReducerFactory.java
        DTOldCatBranchReducerFactory.java
        scorers
        GRPenalizedGiniImpurityScorer.java
        GRPenalizedGiniImpurityScorerFactory.java
        PenalizedGiniImpurityScorer.java
        PenalizedGiniImpurityScorerFactory.java
        PenalizedInformationGainScorer.java
        PenalizedInformationGainScorerFactory.java
        PenalizedMSEScorer.java
        PenalizedMSEScorerFactory.java
        PenalizedSplitDiffScorer.java
        PenalizedSplitDiffScorerFactory.java
        treeBuildContexts
        DTreeContext.java
        DTreeContextBuilder.java
        valueCounters
        ClassificationCounter.java
        ClassificationCounterProducer.java
        nodes
        Branch.java
        Leaf.java
        LeafDepthStats.java
        Node.java
        NumBranch.java
        WeightAndMeanTracker.java
        reducers
        AttributeStatisticsProducer.java
        AttributeStats.java
        Reducer.java
        ReducerFactory.java
        regressionTree
        OptimizedRegressionForests.java
        RegressionTree.java
        RegressionTreeBuilder.java
        RegressionTreeBuilderHelper.java
        RegressionTreeVisualizer.java
        attributeValueIgnoringStrategies
        RegTreeAttributeValueIgnoringStrategy.java
        RegTreeAttributeValueIgnoringStrategyBuilder.java
        branchFinders
        RTCatBranchFinder.java
        RTNumBranchFinder.java
        branchFinderBuilders
        RTBranchFinderBuilder.java
        RTCatBranchFinderBuilder.java
        RTNumBranchFinderBuilder.java
        branchingConditions
        RTBranchingConditions.java
        nodes
        RTCatBranch.java
        RTLeaf.java
        RTLeafBuilder.java
        RTNumBranch.java
        reducers
        RTCatBranchReducer.java
        RTNumBranchReducer.java
        RTreeReducer.java
        reducerFactories
        RTCatBranchReducerFactory.java
        RTNumBranchReducerFactory.java
        scorers
        PenalizedMSEScorer.java
        RTPenalizedMSEScorerFactory.java
        treeBuildContexts
        RTreeContext.java
        RTreeContextBuilder.java
        valueCounters
        MeanValueCounter.java
        MeanValueCounterProducer.java
        scorers
        GRImbalancedScorer.java
        GRImbalancedScorerFactory.java
        GRScorer.java
        GRScorerFactory.java
        Scorer.java
        ScorerFactory.java
        summaryStatistics
        ValueCounter.java
        ValueCounterProducer.java
        ValueStatistics.java
        ValueStatisticsOperations.java
        treeBuildContexts
        TreeContext.java
        TreeContextBuilder.java
        unsupervised
        clustering
        Clusterer.java
        utlities
        CSVToInstanceReader.java
        CSVToInstanceReaderBuilder.java
        CSVToMapOfNumericLists.java
        InstancesToCsvWriter.java
        LibSVMFormatReader.java
        LinePlotter.java
        LinePlotterBuilder.java
        SerializationUtility.java
        selectors
        CSVToMapOfObjectLists.java
        CategoricalSelector.java
        ExplicitCategoricalSelector.java
        ExplicitNumericSelector.java
        NumericSelector.java
  - test
    - java
      - quickml
        BenchmarkTest.java
        InstanceLoader.java
        InstanceLoaderTest.java
        MapUtilsTest.java
        TestUtils.java
        TrainingInstance.java
        collections
        ValueSummingMapTest.java
        supervised
        JsonInstanceLoader.java
        OldTreeBuildTimeTest.java
        PredictiveAccuracyTests.java
        UtilsTest.java
        classifier
        ClassifiersTest.java
        TreeBuilderTestUtils.java
        logRegression
        InstanceTransformerUtilsTest.java
        RidgeRegressionBuilderTest.java
        SparseSGDTest.java
        randomForest
        TestIrisAccuracy.java
        splitOnAttribute
        SplitOnAttributeClassifierBuilderTest.java
        temporallyWeightClassifier
        TemporallyReweightedClassifierBuilderTest.java
        crossValidation
        InterfacesCompilationTest.java
        PredictionMapResultsTest.java
        SimpleCrossValidatorIntegrationTest.java
        attributeImportance
        AttributeImportanceFinderIntegrationTest.java
        AttributeImportanceFinderIntegrationTestOld.java
        AttributeLossSummaryTest.java
        LossFunctionTrackerTest.java
        data
        FoldedDataTest.java
        OutOfTimeDataTest.java
        lossfunctions
        ClassifierMSELossFunctionTest.java
        LossFunctionsTest.java
        WeightedAUCCrossValLossFunctionTest.java
        rankingLossFunctions
        NDCGTest.java
        dataProcessing
        instanceTranformer
        CommonCoocurrenceProductFeatureAppenderTest.java
        OneHotEncoderTest.java
        ProductFeatureAppenderTest.java
        downsampling
        DownsamplingClassifierBuilderTest.java
        DownsamplingPredictiveModelTest.java
        featureEngineering
        AttributeCombiningEnricherTest.java
        FeatureEngineeringClassifierBuilderTest.java
        ProbabilityEnrichStrategyTest.java
        ProbabilityInjectingEnricherTest.java
        inspection
        CategoricalDistributionSamplerTest.java
        NumericDistributionSamplerTest.java
        predictiveModelOptimizer
        PredictiveModelOptimizerIntegrationTest.java
        PredictiveModelOptimizerTest.java
        fieldValueRecommenders
        MonotonicConvergenceRecommenderTest.java
        regressionModel
        PoolAdjacentViolatorsModelTest.java
        RidgeRegressionBuilderTest.java
        tree
        branchFinders
        SplittingUtilsTest.java
        decisionTree
        DecisionOldOldTreeBuilderTest.java
        OldClassificationCounterTest.java
        attributeIgnoringStrategies
        AttributeIgnoringStrategiesTests.java
        reducers
        BinaryCatOldBranchReducerTest.java
        DTCatOldBranchReducerTest.java
        DTNumOldBranchReducerTest.java
        nodes
        OldLeafDepthStatsTest.java
        scorers
        GiniImpurityScorerTest.java
        PenalizedInformationGainScorerTest.java
        PenalizedMSEScorerTest.java

package quickml.supervised.featureEngineering1.enrichStrategies.probabilityInjector;

import com.google.common.collect.Maps;
import com.google.common.collect.Sets;
import quickml.data.instances.InstanceWithAttributesMap;
import quickml.supervised.featureEngineering1.AttributesEnrichStrategy;
import quickml.supervised.featureEngineering1.AttributesEnricher;

import java.io.Serializable;
import java.util.Map;
import java.util.Set;

/**
 * This strategy will inject new attributes for a particular set of existing attributes corresponding to
 * the probability of a specified classification given the value associated with that attribute.  So, for example,
 * if we are predicting a person's likelihood to have an illness based on a variety of factors including gender,
 * and a generic male's overall probability of having the illness is 0.2 based on our training data, then it will
 * enrich with an attribute like "male-PROB"=0.2.
 */
public class ProbabilityEnrichStrategy implements AttributesEnrichStrategy {

    private static final int DEFAULT_MAX_VALUE_COUNT = 20000;

    private final Set<String> attributeKeysToInject;
    private final Serializable classification;
    private final int maxValueCount;

    /**
     *
     * @param attributeKeysToInject The attributes to enrich with probabilities
     * @param classification The classification whose probability we should use.  If there are only two
     *                       classifications then it doesn't particularly matter which one we use.  If there
     *                       are more than two you might wish to create multiple enrich strategies, each
     *                       looking at a different classification.
     */
    public ProbabilityEnrichStrategy(Set<String> attributeKeysToInject, Serializable classification) {
        this(attributeKeysToInject, classification, DEFAULT_MAX_VALUE_COUNT);
    }

    /**
     * @param attributeKeysToInject The attributes to enrich with probabilities
     * @param classification The classification whose probability we should use.  If there are only two
     *                       classifications then it doesn't particularly matter which one we use.  If there
     *                       are more than two you might wish to create multiple enrich strategies, each
     *                       looking at a different classification.
     * @param maxValueCount This is the maximum number of values an attribute can have before it will be
     *                      ignored by ProbabilityEnrichStrategy.  If unspecified the default is 20,000.
     */
    public ProbabilityEnrichStrategy(Set<String> attributeKeysToInject, Serializable classification, final int maxValueCount) {
        this.attributeKeysToInject = attributeKeysToInject;
        this.classification = classification;
        this.maxValueCount = maxValueCount;
    }

    @Override
    public AttributesEnricher build(final Iterable<InstanceWithAttributesMap<?>> trainingData) {
        Map<String, Map<Serializable, ProbCounter>> valueProbCountersByAttribute = Maps.newHashMap();

        Set<String> attributesWithTooManyValues = Sets.newHashSet();

        for (InstanceWithAttributesMap instance : trainingData) {
            int classificationMatch = instance.getLabel().equals(classification) ? 1 : 0;
            for (String attributeKey : attributeKeysToInject) {
                if (attributesWithTooManyValues.contains(attributeKey)) {
                    continue;
                }

                Map<Serializable, ProbCounter> attributeValueProbabilities = valueProbCountersByAttribute.get(attributeKey);
                if (attributeValueProbabilities == null) {
                    attributeValueProbabilities = Maps.newHashMap();
                    valueProbCountersByAttribute.put(attributeKey, attributeValueProbabilities);
                }
                if (attributeValueProbabilities.size() > maxValueCount) {
                    attributesWithTooManyValues.add(attributeKey);
                    valueProbCountersByAttribute.remove(attributeKey);
                    continue;
                }
                Serializable value = instance.getAttributes().get(attributeKey);
                if (value == null) {
                    value = Integer.MIN_VALUE;
                }
                ProbCounter probCounter = attributeValueProbabilities.get(value);
                if (probCounter == null) {
                    probCounter = new ProbCounter();
                    attributeValueProbabilities.put(value, probCounter);
                }
                probCounter.add(classificationMatch, instance.getWeight());
            }
        }

        Map<String, Map<Serializable, Double>> attributeValueProbabilitiesByAttribute = Maps.newHashMap();

        for (Map.Entry<String, Map<Serializable, ProbCounter>> attributeValueProbEntry : valueProbCountersByAttribute.entrySet()) {
            Map<Serializable, Double> probabilitiesByValue = Maps.newHashMap();

            for (Map.Entry<Serializable, ProbCounter> valueProbEntry : attributeValueProbEntry.getValue().entrySet()) {
                probabilitiesByValue.put(valueProbEntry.getKey(), valueProbEntry.getValue().getProb());
            }
            attributeValueProbabilitiesByAttribute.put(attributeValueProbEntry.getKey(), probabilitiesByValue);
        }

        return new ProbabilityInjectingEnricher(attributeValueProbabilitiesByAttribute);
    }

    /**
     * Keeps a running average of the classificationMatch value, weighted accordingly
     */
    private static class ProbCounter {
        private double sum = 0;
        private double total = 0;

        public void add(int classificationMatch, double weight) {
            sum += classificationMatch * weight;
            total += weight;
        }

        public double getProb() {
            return sum / total;
        }
    }
}