EpsilonGreedyActionSelector.java example

Explorer

jabm-master
- jabm
  - src
    - main
      - java
        net
        sourceforge
        jabm
        AbstractSimulation.java
        DesktopSimulationManager.java
        EventScheduler.java
        Population.java
        RepeatedInteractionSimulation.java
        SimpleSimulation.java
        Simulation.java
        SimulationController.java
        SimulationExperiment.java
        SimulationManager.java
        SimulationTime.java
        SpringSimulationController.java
        VariableBindingsIterator.java
        Version.java
        agent
        AbstractAgent.java
        Agent.java
        AgentList.java
        utility
        AbstractUtilityFunction.java
        CaraUtilityFunction.java
        LogUtilityFunction.java
        QuadraticUtilityFunction.java
        RiskNeutralUtilityFunction.java
        ThresholdUtilityFunction.java
        UtilityFunction.java
        distribution
        AbstractDelegatedDistribution.java
        EmpiricalDistribution.java
        NormalDistribution.java
        RandomGeneratorAdaptor.java
        UniformDistribution.java
        event
        AbstractModel.java
        AgentArrivalEvent.java
        AgentEvent.java
        BatchFinishedEvent.java
        BatchStartingEvent.java
        EventListener.java
        EventSubscriber.java
        GenerationFinishedEvent.java
        GenerationStartingEvent.java
        InteractionsFinishedEvent.java
        Model.java
        RandomVariateInitialisedEvent.java
        ReportVariablesChangedEvent.java
        ReproductionStartingEvent.java
        RoundFinishedEvent.java
        RoundStartingEvent.java
        SimEvent.java
        SimulationControllerEvent.java
        SimulationEvent.java
        SimulationFinishedEvent.java
        SimulationStartingEvent.java
        StrategyExecutedEvent.java
        evolution
        Breeder.java
        CombiBreeder.java
        EMAFitnessFunction.java
        EvolvingPopulation.java
        FitnessFunction.java
        FitnessProportionateBreeder.java
        ImitationOperator.java
        MutationBreeder.java
        MutationOperator.java
        RandomPairwiseBreeder.java
        StrategyImitationOperator.java
        gametheory
        CompressedPayoffMatrix.java
        GameTheoreticSimulationController.java
        init
        AgentInitialiser.java
        BasicAgentInitialiser.java
        CombiAgentInitialiser.java
        GardenOfEdenAgentInitialiser.java
        ProportionalCombiAgentInitialiser.java
        RandomVariateInitialiser.java
        SimulationFactory.java
        SpringSimulationFactory.java
        StrategyInitialiser.java
        learning
        AbstractLearner.java
        ActionSelector.java
        ContinuousLearner.java
        DiscreteLearner.java
        DumbLearner.java
        DumbRandomLearner.java
        EpsilonGreedyActionSelector.java
        GraphLearnerMonitor.java
        Learner.java
        LearnerMonitor.java
        MDPLearner.java
        MetaLearner.java
        MimicryLearner.java
        NPTRothErevLearner.java
        QLearner.java
        RothErevLearner.java
        SelfKnowledgable.java
        SlidingWindowLearner.java
        SoftMaxActionSelector.java
        StatelessQLearner.java
        StimuliResponseLearner.java
        WidrowHoffLearner.java
        WidrowHoffLearnerWithMomentum.java
        mixing
        AgentMixer.java
        FullAgentMixer.java
        FullPairwiseAgentMixer.java
        FullRandomArrivalAgentMixer.java
        RandomArrivalAgentMixer.java
        RandomRobinAgentMixer.java
        StochasticPairwiseAgentMixer.java
        SubgroupAgentMixer.java
        prng
        DiscreteProbabilityDistribution.java
        MT.java
        MT32.java
        MersenneTwister.java
        PRNGFactory.java
        report
        AbstractReport.java
        AbstractReportVariables.java
        AggregateFrequencyReport.java
        AggregatePayoffMap.java
        BatchMetaReport.java
        CSVReader.java
        CSVReportVariables.java
        CSVWriter.java
        CategoryDatasetFrequencyAdaptor.java
        CombiReportVariables.java
        CombiSeriesReportVariables.java
        ContributingPayoffMap.java
        DataSeriesWriter.java
        DataWriter.java
        DotWriter.java
        FitnessReportVariables.java
        FittestStrategyReportVariables.java
        FrequencyByTimeDataset.java
        FrequencyByTimeReport.java
        FrequencyReport.java
        FreshInteractionIntervalReport.java
        InteractionIntervalReport.java
        IntraBatchReport.java
        NullDataWriter.java
        PayoffByStrategyReportVariables.java
        PayoffMap.java
        RandomVariateReportVariables.java
        RelationshipTracker.java
        Report.java
        ReportVariables.java
        ReportWithGUI.java
        SeriesReportVariables.java
        SimEventReport.java
        SimulationFinishedNoInitialisation.java
        SimulationFinishedReport.java
        StrategyExecutionFrequency.java
        SummaryStatisticsReportVariables.java
        Taggable.java
        TimelessReportVariables.java
        Timeseries.java
        TotalFitnessCsvWriter.java
        WeightedEdge.java
        WeightedGraphMetrics.java
        XYReportVariables.java
        spring
        AbstractRandomVariateFactoryBean.java
        BeanFactorySingleton.java
        PRNGSeedFactoryBean.java
        PropertyOverrideWithReferencesConfigurer.java
        RandomDoubleFactoryBean.java
        RandomIntegerFactoryBean.java
        SimulationScope.java
        strategy
        AbstractRlStrategy.java
        AbstractStrategy.java
        ImitableStrategy.java
        ImitatingStrategy.java
        RlStrategy.java
        RlStrategyWithImitation.java
        RlStrategyWithState.java
        Strategy.java
        util
        AbsoluteContinuousDistribution.java
        BaseNIterator.java
        CombiObjectFactory.java
        Coordinate.java
        Distribution.java
        DistributionFactory.java
        FixedLengthQueue.java
        HashCodeComparator.java
        IdAllocator.java
        MathUtil.java
        MutableDoubleWrapper.java
        MutableIntWrapper.java
        MutableStringWrapper.java
        ObjectConverter.java
        Parameterizable.java
        Partitioner.java
        Permutator.java
        Point.java
        PriorityQueue.java
        Properties.java
        Prototypeable.java
        QueueDisassembler.java
        Resetable.java
        SummaryStats.java
        SystemProperties.java
        TimeSeriesWindow.java
        UniformDistribution.java
        UntypedDouble.java
        UntypedLong.java
        UntypedNumber.java
        view
        BarChart.java
        JFrameReportVariables.java
        PropertiesEditor.java
        TimeSeriesChart.java
        XYDatasetAdaptor.java
    - test
      - java
        net
        sourceforge
        jabm
        learning
        QLearnerTest.java
        RothErevLearnerTest.java
        WidrowHoffLearnerTest.java
        report
        AggregatePayoffMapTest.java
        PayoffMapTest.java
        spring
        PRNGSeedFactoryBeanTest.java
        strategy
        MockStrategy.java
        test
        PRNGTestSeeds.java
        util
        CummulativeDistributionTest.java
        DiscreteProbabilityDistributionTest.java
        FixedLengthQueueTest.java
        TimeSeriesWindowTest.java
- jabm-examples
  - src
    - main
      - java
        net
        sourceforge
        jabm
        examples
        elfarolbar
        AbstractPredictionStrategy.java
        AdaptivePredictionStrategy.java
        AntiContrarianPredictionStrategy.java
        AttendedBarEvent.java
        AutoregressivePredictionStrategy.java
        BarTender.java
        ConstantPredictionStrategy.java
        ContrarianPredictionStrategy.java
        ExponentialMovingAveragePredictionStrategy.java
        LaggedPredictionStrategy.java
        LowHighPredictionStrategy.java
        Main.java
        MovingAveragePredictionStrategy.java
        PatronAgent.java
        StayedAtHomeEvent.java

/*
 * JABM - Java Agent-Based Modeling Toolkit
 * Copyright (C) 2013 Steve Phelps
 *
 * This program is free software; you can redistribute it and/or
 * modify it under the terms of the GNU General Public License as
 * published by the Free Software Foundation; either version 3 of
 * the License, or (at your option) any later version.
 *
 * This program is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
 * See the GNU General Public License for more details.
 */
package net.sourceforge.jabm.learning;

import org.apache.log4j.Logger;
import org.springframework.beans.factory.annotation.Required;

import cern.jet.random.Uniform;
import cern.jet.random.engine.RandomEngine;

/**
 * <p>
 * An implementation of the epsilon-greedy action selection policy.
 * </p>
 * 
 * <p>
 * See:<br>
 * Sutton, R. S., Barto, A. G., 1998. Reinforcement Learning: An Introduction.
 * MIT Press.<br>
 * </p>
 * 
 * @author Steve Phelps
 * 
 */
public class EpsilonGreedyActionSelector implements ActionSelector {

	/**
	 * The parameter representing the probability of choosing a random action on
	 * any given iteration.
	 */
	protected double epsilon;

	/**
	 * |The pseudo-random number generator used to randomly select whether to
	 * explore and to randomly select an action when the algorithm is exploring.
	 */
	protected RandomEngine prng;
	
	static Logger logger = Logger.getLogger(EpsilonGreedyActionSelector.class);
	
	public static final double DEFAULT_EPSILON = 0.01;
	
	public EpsilonGreedyActionSelector(double epsilon, RandomEngine prng) {
		super();
		this.epsilon = epsilon;
		this.prng = prng;
	}
	
	public EpsilonGreedyActionSelector(RandomEngine prng) {
		this(DEFAULT_EPSILON, prng);
	}
	
	public EpsilonGreedyActionSelector() {
		this(DEFAULT_EPSILON, null);
	}

	@Override
	public int act(int state, MDPLearner qLearner) {
		if (prng.raw() <= epsilon) {
			// lastActionChosen = prng.choose(0, numActions-1);
			Uniform dist = new Uniform(prng);
			int randomAction = dist.nextIntFromTo(0,
			    qLearner.getNumberOfActions() - 1);
			return randomAction;
		} else {
			return qLearner.bestAction(state);
		}
	}

	public double getEpsilon() {
		return epsilon;
	}

	public void setEpsilon(double epsilon) {
		this.epsilon = epsilon;
		if (logger.isDebugEnabled()) {
			logger.debug("epsilon = " + epsilon);
		}
	}

	public RandomEngine getPrng() {
		return prng;
	}

	@Required
	public void setPrng(RandomEngine prng) {
		this.prng = prng;
	}

}