QLearningAgent.java example

Explorer

heuristics-and-optimization-master
- constraintsprogramming
  - hidato
    - Hidato.java
  - magic_square
    - MagicSquare.java
  - sudoku
    - Sudoku.java
- heuristic
  - aima-core
    - src
      - main
        java
        aima
        core
        agent
        Action.java
        Agent.java
        AgentProgram.java
        Environment.java
        EnvironmentObject.java
        EnvironmentState.java
        EnvironmentView.java
        EnvironmentViewNotifier.java
        Model.java
        Percept.java
        State.java
        impl
        AbstractAgent.java
        AbstractEnvironment.java
        DynamicAction.java
        DynamicEnvironmentState.java
        DynamicPercept.java
        DynamicState.java
        NoOpAction.java
        ObjectWithDynamicAttributes.java
        SimpleEnvironmentView.java
        aprog
        ModelBasedReflexAgentProgram.java
        SimpleReflexAgentProgram.java
        TableDrivenAgentProgram.java
        simplerule
        ANDCondition.java
        Condition.java
        EQUALCondition.java
        NOTCondition.java
        ORCondition.java
        Rule.java
        environment
        cellworld
        Cell.java
        CellWorld.java
        CellWorldAction.java
        CellWorldFactory.java
        connectfour
        ActionValuePair.java
        ConnectFourAIPlayer.java
        ConnectFourGame.java
        ConnectFourState.java
        eightpuzzle
        EightPuzzleBoard.java
        EightPuzzleFunctionFactory.java
        EightPuzzleGoalTest.java
        ManhattanHeuristicFunction.java
        MisplacedTilleHeuristicFunction.java
        hidato
        Accion.java
        AccionesDisponibles.java
        CosteAccion.java
        Ejecutar.java
        Estado.java
        FuncionMetas.java
        Heuristica1.java
        ResultadoAccion.java
        map
        AdaptableHeuristicFunction.java
        BidirectionalMapProblem.java
        DynAttributeNames.java
        ExtendableMap.java
        Map.java
        MapAgent.java
        MapEnvironment.java
        MapEnvironmentState.java
        MapFunctionFactory.java
        MapStepCostFunction.java
        MoveToAction.java
        Scenario.java
        SimplifiedRoadMapOfAustralia.java
        SimplifiedRoadMapOfPartOfRomania.java
        StraightLineDistanceHeuristicFunction.java
        package-info.java
        nqueens
        AttackingPairsHeuristic.java
        NQueensBoard.java
        NQueensFitnessFunction.java
        NQueensFunctionFactory.java
        NQueensGoalTest.java
        QueenAction.java
        tictactoe
        TicTacToeGame.java
        TicTacToeState.java
        vacuum
        FullyObservableVacuumEnvironmentPercept.java
        FullyObservableVacuumEnvironmentPerceptToStateFunction.java
        LocalVacuumEnvironmentPercept.java
        ModelBasedReflexVacuumAgent.java
        NondeterministicVacuumAgent.java
        NondeterministicVacuumEnvironment.java
        ReflexVacuumAgent.java
        SimpleReflexVacuumAgent.java
        TableDrivenVacuumAgent.java
        VacuumEnvironment.java
        VacuumEnvironmentState.java
        VacuumEnvironmentViewActionTracker.java
        VacuumWorldActions.java
        VacuumWorldGoalTest.java
        VacuumWorldResults.java
        xyenv
        Wall.java
        XYEnvironment.java
        learning
        data
        DataResource.java
        framework
        Attribute.java
        AttributeSpecification.java
        DataSet.java
        DataSetFactory.java
        DataSetSpecification.java
        Example.java
        Learner.java
        NumericAttribute.java
        NumericAttributeSpecification.java
        StringAttribute.java
        StringAttributeSpecification.java
        inductive
        ConstantDecisonTree.java
        DLTest.java
        DLTestFactory.java
        DecisionList.java
        DecisionTree.java
        knowledge
        CurrentBestLearning.java
        FOLDataSetDomain.java
        FOLExample.java
        Hypothesis.java
        learners
        AdaBoostLearner.java
        CurrentBestLearner.java
        DecisionListLearner.java
        DecisionTreeLearner.java
        MajorityLearner.java
        StumpLearner.java
        neural
        ActivationFunction.java
        BackPropLearning.java
        FeedForwardNeuralNetwork.java
        FunctionApproximator.java
        HardLimitActivationFunction.java
        IrisDataSetNumerizer.java
        IrisNNDataSet.java
        Layer.java
        LayerSensitivity.java
        LogSigActivationFunction.java
        NNConfig.java
        NNDataSet.java
        NNExample.java
        NNTrainingScheme.java
        Numerizer.java
        Perceptron.java
        PureLinearActivationFunction.java
        RabbitEyeDataSet.java
        reinforcement
        PerceptStateReward.java
        RewardPercept.java
        agent
        PassiveADPAgent.java
        PassiveTDAgent.java
        QLearningAgent.java
        ReinforcementAgent.java
        example
        CellWorldEnvironment.java
        CellWorldEnvironmentState.java
        CellWorldPercept.java
        logic
        common
        Lexer.java
        LogicTokenTypes.java
        ParseTreeNode.java
        Parser.java
        Token.java
        Visitor.java
        fol
        CNFConverter.java
        Connectors.java
        PredicateCollector.java
        Quantifiers.java
        StandardizeApart.java
        StandardizeApartInPlace.java
        StandardizeApartIndexical.java
        StandardizeApartIndexicalFactory.java
        StandardizeApartResult.java
        SubstVisitor.java
        SubsumptionElimination.java
        Unifier.java
        VariableCollector.java
        domain
        DomainFactory.java
        FOLDomain.java
        FOLDomainAnswerLiteralAddedEvent.java
        FOLDomainEvent.java
        FOLDomainListener.java
        FOLDomainSkolemConstantAddedEvent.java
        FOLDomainSkolemFunctionAddedEvent.java
        inference
        AbstractModulation.java
        Demodulation.java
        FOLBCAsk.java
        FOLFCAsk.java
        FOLModelElimination.java
        FOLOTTERLikeTheoremProver.java
        FOLTFMResolution.java
        InferenceProcedure.java
        InferenceResult.java
        InferenceResultPrinter.java
        Paramodulation.java
        otter
        ClauseFilter.java
        ClauseSimplifier.java
        LightestClauseHeuristic.java
        defaultimpl
        DefaultClauseFilter.java
        DefaultClauseSimplifier.java
        DefaultLightestClauseHeuristic.java
        proof
        AbstractProofStep.java
        Proof.java
        ProofFinal.java
        ProofPrinter.java
        ProofStep.java
        ProofStepBwChGoal.java
        ProofStepChainCancellation.java
        ProofStepChainContrapositive.java
        ProofStepChainDropped.java
        ProofStepChainFromClause.java
        ProofStepChainReduction.java
        ProofStepClauseBinaryResolvent.java
        ProofStepClauseClausifySentence.java
        ProofStepClauseDemodulation.java
        ProofStepClauseFactor.java
        ProofStepClauseParamodulation.java
        ProofStepFoChAlreadyAFact.java
        ProofStepFoChAssertFact.java
        ProofStepGoal.java
        ProofStepPremise.java
        ProofStepRenaming.java
        trace
        FOLModelEliminationTracer.java
        FOLTFMResolutionTracer.java
        kb
        FOLKnowledgeBase.java
        FOLKnowledgeBaseFactory.java
        data
        CNF.java
        Chain.java
        Clause.java
        Literal.java
        ReducedLiteral.java
        parsing
        AbstractFOLVisitor.java
        FOLLexer.java
        FOLParser.java
        FOLVisitor.java
        ast
        AtomicSentence.java
        ConnectedSentence.java
        Constant.java
        FOLNode.java
        Function.java
        NotSentence.java
        Predicate.java
        QuantifiedSentence.java
        Sentence.java
        Term.java
        TermEquality.java
        Variable.java
        propositional
        algorithms
        DPLL.java
        KnowledgeBase.java
        LogicUtils.java
        Model.java
        PLFCEntails.java
        PLResolution.java
        TTEntails.java
        WalkSAT.java
        parsing
        AbstractPLVisitor.java
        PELexer.java
        PEParser.java
        PLVisitor.java
        ast
        AtomicSentence.java
        BinarySentence.java
        ComplexSentence.java
        FalseSentence.java
        MultiSentence.java
        Sentence.java
        Symbol.java
        SymbolComparator.java
        TrueSentence.java
        UnarySentence.java
        visitors
        AndDetector.java
        BasicTraverser.java
        CNFClauseGatherer.java
        CNFTransformer.java
        NegativeSymbolCollector.java
        PositiveSymbolCollector.java
        SymbolClassifier.java
        SymbolCollector.java
        probability
        CategoricalDistribution.java
        Factor.java
        FiniteProbabilityModel.java
        ProbabilityDensity.java
        ProbabilityDistribution.java
        ProbabilityMass.java
        ProbabilityModel.java
        RandomVariable.java
        bayes
        BayesInference.java
        BayesianNetwork.java
        ConditionalProbabilityDistribution.java
        ConditionalProbabilityTable.java
        ContinuousNode.java
        DiscreteNode.java
        DynamicBayesianNetwork.java
        FiniteNode.java
        Node.java
        approx
        BayesInferenceApproxAdapter.java
        BayesSampleInference.java
        GibbsAsk.java
        LikelihoodWeighting.java
        ParticleFiltering.java
        PriorSample.java
        RejectionSampling.java
        exact
        EliminationAsk.java
        EnumerationAsk.java
        impl
        AbstractNode.java
        BayesNet.java
        CPT.java
        DynamicBayesNet.java
        FullCPTNode.java
        model
        FiniteBayesModel.java
        domain
        AbstractContinuousDomain.java
        AbstractDiscreteDomain.java
        AbstractFiniteDomain.java
        ArbitraryTokenDomain.java
        BooleanDomain.java
        ContinuousDomain.java
        DiscreteDomain.java
        Domain.java
        FiniteDomain.java
        FiniteIntegerDomain.java
        example
        BayesNetExampleFactory.java
        DynamicBayesNetExampleFactory.java
        ExampleRV.java
        FullJointDistributionBurglaryAlarmModel.java
        FullJointDistributionMeningitisStiffNeckModel.java
        FullJointDistributionPairFairDiceModel.java
        FullJointDistributionToothacheCavityCatchModel.java
        FullJointDistributionToothacheCavityCatchWeatherModel.java
        GenericTemporalModelFactory.java
        HMMExampleFactory.java
        MDPFactory.java
        full
        FullJointDistributionModel.java
        hmm
        HiddenMarkovModel.java
        exact
        FixedLagSmoothing.java
        HMMForwardBackward.java
        HMMForwardBackwardConstantSpace.java
        impl
        HMM.java
        mdp
        ActionsFunction.java
        MarkovDecisionProcess.java
        Policy.java
        PolicyEvaluation.java
        RewardFunction.java
        TransitionProbabilityFunction.java
        impl
        LookupPolicy.java
        MDP.java
        ModifiedPolicyEvaluation.java
        search
        PolicyIteration.java
        ValueIteration.java
        proposition
        AbstractDerivedProposition.java
        AbstractProposition.java
        AbstractTermProposition.java
        AssignmentProposition.java
        BinarySentenceProposition.java
        ConjunctiveProposition.java
        DerivedProposition.java
        DisjunctiveProposition.java
        EquivalentProposition.java
        IntegerSumProposition.java
        NotProposition.java
        Proposition.java
        SentenceProposition.java
        SubsetProposition.java
        TermProposition.java
        UnarySentenceProposition.java
        temporal
        BackwardStepInference.java
        ForwardBackwardInference.java
        ForwardStepInference.java
        generic
        ForwardBackward.java
        util
        ProbUtil.java
        ProbabilityTable.java
        RandVar.java
        search
        adversarial
        AdversarialSearch.java
        AlphaBetaSearch.java
        Game.java
        IterativeDeepeningAlphaBetaSearch.java
        MinimaxSearch.java
        csp
        AC3Strategy.java
        Assignment.java
        BacktrackingStrategy.java
        CSP.java
        CSPStateListener.java
        Constraint.java
        Domain.java
        DomainRestoreInfo.java
        ImprovedBacktrackingStrategy.java
        MapCSP.java
        MinConflictsStrategy.java
        NotEqualConstraint.java
        SolutionStrategy.java
        Variable.java
        framework
        ActionsFunction.java
        BidirectionalProblem.java
        CutOffIndicatorAction.java
        DefaultGoalTest.java
        DefaultStepCostFunction.java
        EvaluationFunction.java
        GoalTest.java
        GraphSearch.java
        HeuristicFunction.java
        Metrics.java
        Node.java
        NodeExpander.java
        PathCostFunction.java
        PerceptToStateFunction.java
        PrioritySearch.java
        Problem.java
        QueueSearch.java
        ResultFunction.java
        Search.java
        SearchAgent.java
        SearchUtils.java
        SimpleProblemSolvingAgent.java
        SolutionChecker.java
        StepCostFunction.java
        TreeSearch.java
        informed
        AStarEvaluationFunction.java
        AStarSearch.java
        BestFirstSearch.java
        GreedyBestFirstEvaluationFunction.java
        GreedyBestFirstSearch.java
        RecursiveBestFirstSearch.java
        local
        FitnessFunction.java
        GeneticAlgorithm.java
        HillClimbingSearch.java
        Individual.java
        Scheduler.java
        SimulatedAnnealingSearch.java
        nondeterministic
        AndOrSearch.java
        IfStateThenPlan.java
        NondeterministicProblem.java
        Path.java
        Plan.java
        ResultsFunction.java
        online
        LRTAStarAgent.java
        OnlineDFSAgent.java
        OnlineSearchProblem.java
        uninformed
        BidirectionalSearch.java
        BreadthFirstSearch.java
        DepthFirstSearch.java
        DepthLimitedSearch.java
        IterativeDeepeningSearch.java
        UniformCostSearch.java
        util
        ArrayIterator.java
        CancelableThread.java
        Converter.java
        FrequencyCounter.java
        JavaRandomizer.java
        MockRandomizer.java
        Randomizer.java
        SetOps.java
        Util.java
        datastructure
        FIFOQueue.java
        LIFOQueue.java
        LabeledGraph.java
        Pair.java
        Point2D.java
        PriorityQueue.java
        Queue.java
        Table.java
        Triplet.java
        TwoKeyHashMap.java
        XYLocation.java
        math
        Interval.java
        LUDecomposition.java
        Matrix.java
        MixedRadixNumber.java
        Vector.java
      - test
        java
        aima
        test
        core
        experiment
        logic
        propositional
        algorithms
        WalkSATTest.java
        performance
        logic
        fol
        inference
        FOLTFMResolutionPerformance.java
        unit
        AllAIMAUnitTestSuite.java
        agent
        AgentTestSuite.java
        impl
        DynamicPerceptTest.java
        MockAgent.java
        PerceptSequenceTest.java
        aprog
        TableDrivenAgentProgramTest.java
        simplerule
        RuleTest.java
        environment
        EnvironmentTestSuite.java
        cellworld
        CellWorldTest.java
        eightpuzzle
        EightPuzzleBoardMoveTest.java
        EightPuzzleBoardTest.java
        EightPuzzleFunctionFactoryTest.java
        MisplacedTileHeuristicFunctionTest.java
        map
        MapAgentTest.java
        MapEnvironmentTest.java
        MapFunctionFactoryTest.java
        MapStepCostFunctionTest.java
        MapTest.java
        nqueens
        NQueensBoardTest.java
        NQueensFitnessFunctionTest.java
        NQueensFunctionFactoryTest.java
        NQueensGoalTestTest.java
        tictactoe
        TicTacToeTest.java
        vacuum
        ModelBasedReflexVacuumAgentTest.java
        ReflexVacuumAgentTest.java
        SimpleReflexVacuumAgentTest.java
        TableDrivenVacuumAgentTest.java
        VacuumEnvironmentTest.java
        xyenv
        XYEnvironmentTest.java
        learning
        LearningTestSuite.java
        framework
        DataSetTest.java
        InformationAndGainTest.java
        MockDataSetSpecification.java
        inductive
        DLTestTest.java
        DecisionListTest.java
        MockDLTestFactory.java
        learners
        DecisionTreeTest.java
        EnsembleLearningTest.java
        LearnerTests.java
        neural
        BackPropagationTests.java
        LayerTests.java
        reinforcement
        agent
        PassiveADPAgentTest.java
        PassiveTDAgentTest.java
        QLearningAgentTest.java
        ReinforcementLearningAgentTest.java
        logic
        LogicTestSuite.java
        fol
        CNFConverterTest.java
        CommonFOLInferenceProcedureTests.java
        FOLTestSuite.java
        PredicateCollectorTest.java
        SubstVisitorTest.java
        SubsumptionEliminationTest.java
        UnifierTest.java
        VariableCollectorTest.java
        inference
        DemodulationTest.java
        FOLBCAskTest.java
        FOLFCAskTest.java
        FOLModelEliminationTest.java
        FOLOTTERLikeTheoremProverTest.java
        FOLTFMResolutionTest.java
        ParamodulationTest.java
        kb
        FOLKnowledgeBaseTest.java
        data
        ChainTest.java
        ClauseTest.java
        parsing
        FOLLexerTest.java
        FOLParserTest.java
        propositional
        PropositionalTestSuite.java
        algorithms
        DPLLTest.java
        KnowledgeBaseTest.java
        ModelTest.java
        PLFCEntailsTest.java
        PLResolutionTest.java
        TTEntailsTest.java
        parsing
        ListTest.java
        PELexerTest.java
        PEParserTest.java
        visitors
        CNFClauseGathererTest.java
        CNFTransformerTest.java
        SymbolClassifierTest.java
        SymbolCollectorTest.java
        probability
        CommonFiniteProbabilityModelTests.java
        CommonProbabilityModelTests.java
        ProbabilityTestSuite.java
        bayes
        approx
        GibbsAskTest.java
        LikelihoodWeightingTest.java
        ParticleFilterTest.java
        PriorSampleTest.java
        RejectionSamplingTest.java
        exact
        BayesianInferenceTest.java
        EliminationAskTest.java
        EnumerationAskTest.java
        impl
        CPTTest.java
        model
        FiniteBayesModelTest.java
        full
        FullJointProbabilityModelTest.java
        hmm
        exact
        FixedLagSmoothingTest.java
        HMMForwardBackwardConstantSpaceTest.java
        HMMForwardBackwardTest.java
        mdp
        MarkovDecisionProcessTest.java
        PolicyIterationTest.java
        ValueIterationTest.java
        temporal
        CommonForwardBackwardTest.java
        generic
        ForwardBackwardTest.java
        util
        ProbUtilTest.java
        ProbabilityTableTest.java
        search
        SearchTestSuite.java
        csp
        AssignmentTest.java
        CSPTest.java
        MapCSPTest.java
        framework
        NodeTest.java
        SolutionCheckerTest.java
        informed
        AStarSearchTest.java
        GreedyBestFirstSearchTest.java
        RecursiveBestFirstSearchTest.java
        local
        SimulatedAnnealingSearchTest.java
        nondeterministic
        AndOrSearchTest.java
        online
        LRTAStarAgentTest.java
        OnlineDFSAgentTest.java
        uninformed
        BidirectionalSearchTest.java
        BreadthFirstSearchTest.java
        DepthFirstSearchTest.java
        DepthLimitedSearchTest.java
        IterativeDeepeningSearchTest.java
        UniformCostSearchTest.java
        util
        SetOpsTest.java
        UtilTest.java
        UtilTestSuite.java
        datastructure
        FIFOQueueTest.java
        LIFOQueueTest.java
        TableTest.java
        XYLocationTest.java
        math
        MixedRadixNumberTest.java
  - puzzles

package aima.core.learning.reinforcement.agent;

import java.util.HashMap;
import java.util.Map;

import aima.core.agent.Action;
import aima.core.learning.reinforcement.PerceptStateReward;
import aima.core.probability.mdp.ActionsFunction;
import aima.core.util.FrequencyCounter;
import aima.core.util.datastructure.Pair;

/**
 * Artificial Intelligence A Modern Approach (3rd Edition): page 844.<br>
 * <br>
 * 
 * <pre>
 * function Q-LEARNING-AGENT(percept) returns an action
 *   inputs: percept, a percept indicating the current state s' and reward signal r'
 *   persistent: Q, a table of action values indexed by state and action, initially zero
 *               N<sub>sa</sub>, a table of frequencies for state-action pairs, initially zero
 *               s,a,r, the previous state, action, and reward, initially null
 *               
 *   if TERMAINAL?(s) then Q[s,None] <- r'
 *   if s is not null then
 *       increment N<sub>sa</sub>[s,a]
 *       Q[s,a] <- Q[s,a] + α(N<sub>sa</sub>[s,a])(r + γmax<sub>a'</sub>Q[s',a'] - Q[s,a])
 *   s,a,r <- s',argmax<sub>a'</sub>f(Q[s',a'],N<sub>sa</sub>[s',a']),r'
 *   return a
 * </pre>
 * 
 * Figure 21.8 An exploratory Q-learning agent. It is an active learner that
 * learns the value Q(s,a) of each action in each situation. It uses the same
 * exploration function f as the exploratory ADP agent, but avoids having to
 * learn the transition model because the Q-value of a state can be related
 * directly to those of its neighbors.<br>
 * <br>
 * <b>Note:</b> There appears to be two minor defects in the algorithm outlined
 * in the book:<br>
 * if TERMAINAL?(s) then Q[s,None] <- r'<br>
 * should be:<br>
 * if TERMAINAL?(s') then Q[s',None] <- r'<br>
 * so that the correct value for Q[s',a'] is used in the Q[s,a] update rule when
 * a terminal state is reached.<br>
 * <br>
 * s,a,r <- s',argmax<sub>a'</sub>f(Q[s',a'],N<sub>sa</sub>[s',a']),r'<br>
 * should be:
 * 
 * <pre>
 * if s'.TERMINAL? then s,a,r <- null else s,a,r <- s',argmax<sub>a'</sub>f(Q[s',a'],N<sub>sa</sub>[s',a']),r'
 * </pre>
 * 
 * otherwise at the beginning of a consecutive trial, s will be the prior
 * terminal state and is what will be updated in Q[s,a], which appears not to be
 * correct as you did not perform an action in the terminal state and the
 * initial state is not reachable from the prior terminal state. Comments
 * welcome.
 * 
 * @param <S>
 *            the state type.
 * @param <A>
 *            the action type.
 * 
 * @author Ciaran O'Reilly
 * @author Ravi Mohan
 * 
 */
public class QLearningAgent<S, A extends Action> extends
		ReinforcementAgent<S, A> {
	// persistent: Q, a table of action values indexed by state and action,
	// initially zero
	Map<Pair<S, A>, Double> Q = new HashMap<Pair<S, A>, Double>();
	// N<sub>sa</sub>, a table of frequencies for state-action pairs, initially
	// zero
	private FrequencyCounter<Pair<S, A>> Nsa = new FrequencyCounter<Pair<S, A>>();
	// s,a,r, the previous state, action, and reward, initially null
	private S s = null;
	private A a = null;
	private Double r = null;
	//
	private ActionsFunction<S, A> actionsFunction = null;
	private A noneAction = null;
	private double alpha = 0.0;
	private double gamma = 0.0;
	private int Ne = 0;
	private double Rplus = 0.0;

	/**
	 * Constructor.
	 * 
	 * @param actionsFunction
	 *            a function that lists the legal actions from a state.
	 * @param noneAction
	 *            an action representing None, i.e. a NoOp.
	 * @param alpha
	 *            a fixed learning rate.
	 * @param gamma
	 *            discount to be used.
	 * @param Ne
	 *            is fixed parameter for use in the method f(u, n).
	 * @param Rplus
	 *            R+ is an optimistic estimate of the best possible reward
	 *            obtainable in any state, which is used in the method f(u, n).
	 */
	public QLearningAgent(ActionsFunction<S, A> actionsFunction,
			A noneAction, double alpha,
			double gamma, int Ne, double Rplus) {
		this.actionsFunction = actionsFunction;
		this.noneAction = noneAction;
		this.alpha = alpha;
		this.gamma = gamma;
		this.Ne = Ne;
		this.Rplus = Rplus;
	}

	/**
	 * An exploratory Q-learning agent. It is an active learner that learns the
	 * value Q(s,a) of each action in each situation. It uses the same
	 * exploration function f as the exploratory ADP agent, but avoids having to
	 * learn the transition model because the Q-value of a state can be related
	 * directly to those of its neighbors.
	 * 
	 * @param percept
	 *            a percept indicating the current state s' and reward signal
	 *            r'.
	 * @return an action
	 */
	@Override
	public A execute(PerceptStateReward<S> percept) {

		S sPrime = percept.state();
		double rPrime = percept.reward();

		// if TERMAINAL?(s') then Q[s',None] <- r'
		if (isTerminal(sPrime)) {
			Q.put(new Pair<S, A>(sPrime, noneAction), rPrime);
		}

		// if s is not null then
		if (null != s) {
			// increment N<sub>sa</sub>[s,a]
			Pair<S, A> sa = new Pair<S, A>(s, a);
			Nsa.incrementFor(sa);
			// Q[s,a] <- Q[s,a] + α(N<sub>sa</sub>[s,a])(r +
			// γmax<sub>a'</sub>Q[s',a'] - Q[s,a])
			Double Q_sa = Q.get(sa);
			if (null == Q_sa) {
				Q_sa = 0.0;
			}
			Q.put(sa, Q_sa + alpha(Nsa, s, a)
					* (r + gamma * maxAPrime(sPrime) - Q_sa));
		}
		// if s'.TERMINAL? then s,a,r <- null else
		// s,a,r <- s',argmax<sub>a'</sub>f(Q[s',a'],N<sub>sa</sub>[s',a']),r'
		if (isTerminal(sPrime)) {
			s = null;
			a = null;
			r = null;
		} else {
			s = sPrime;
			a = argmaxAPrime(sPrime);
			r = rPrime;
		}

		// return a
		return a;
	}

	@Override
	public void reset() {
		Q.clear();
		Nsa.clear();
		s = null;
		a = null;
		r = null;
	}

	@Override
	public Map<S, Double> getUtility() {
		// Q-values are directly related to utility values as follows
		// (AIMA3e pg. 843 - 21.6) :
		// U(s) = max<sub>a</sub>Q(s,a).
		Map<S, Double> U = new HashMap<S, Double>();
		for (Pair<S, A> sa : Q.keySet()) {
			Double q = Q.get(sa);
			Double u = U.get(sa.getFirst());
			if (null == u || u < q) {
				U.put(sa.getFirst(), q);
			}
		}

		return U;
	}

	//
	// PROTECTED METHODS
	//

	/**
	 * AIMA3e pg. 836 'if we change α from a fixed parameter to a function
	 * that decreases as the number of times a state action has been observed
	 * increases, then U<sup>π</sup>(s) itself will converge to the correct
	 * value.<br>
	 * <br>
	 * <b>Note:</b> override this method to obtain the desired behavior.
	 * 
	 * @param Nsa
	 *            a frequency counter of observed state action pairs.
	 * @param s
	 *            the current state.
	 * @param a the current action.
	 * @return the learning rate to use based on the frequency of the state
	 *         passed in.
	 */
	protected double alpha(FrequencyCounter<Pair<S, A>> Nsa, S s, A a) {
		// Default implementation is just to return a fixed parameter value
		// irrespective of the # of times a state action has been encountered
		return alpha;
	}

	/**
	 * AIMA3e pg. 842 'f(u, n) is called the <b>exploration function</b>. It
	 * determines how greed (preferences for high values of u) is traded off
	 * against curiosity (preferences for actions that have not been tried often
	 * and have low n). The function f(u, n) should be increasing in u and
	 * decreasing in n.
	 * 
	 * 
	 * <b>Note:</b> Override this method to obtain desired behavior.
	 * 
	 * @param u
	 *            the currently estimated utility.
	 * @param n
	 *            the number of times this situation has been encountered.
	 * @return the exploration value.
	 */
	protected double f(Double u, int n) {
		// A Simple definition of f(u, n):
		if (null == u || n < Ne) {
			return Rplus;
		}
		return u;
	}

	//
	// PRIVATE METHODS
	//
	private boolean isTerminal(S s) {
		boolean terminal = false;
		if (null != s && actionsFunction.actions(s).size() == 0) {
			// No actions possible in state is considered terminal.
			terminal = true;
		}
		return terminal;
	}

	private double maxAPrime(S sPrime) {
		double max = Double.NEGATIVE_INFINITY;
		if (actionsFunction.actions(sPrime).size() == 0) {
			// a terminal state
			max = Q.get(new Pair<S, A>(sPrime, noneAction));
		} else {
			for (A aPrime : actionsFunction.actions(sPrime)) {
				Double Q_sPrimeAPrime = Q.get(new Pair<S, A>(sPrime, aPrime));
				if (null != Q_sPrimeAPrime && Q_sPrimeAPrime > max) {
					max = Q_sPrimeAPrime;
				}
			}
		}
		if (max == Double.NEGATIVE_INFINITY) {
			// Assign 0 as the mimics Q being initialized to 0 up front.
			max = 0.0;
		}
		return max;
	}

	// argmax<sub>a'</sub>f(Q[s',a'],N<sub>sa</sub>[s',a'])
	private A argmaxAPrime(S sPrime) {
		A a = null;
		double max = Double.NEGATIVE_INFINITY;
		for (A aPrime : actionsFunction.actions(sPrime)) {
			Pair<S, A> sPrimeAPrime = new Pair<S, A>(sPrime, aPrime);
			double explorationValue = f(Q.get(sPrimeAPrime), Nsa
					.getCount(sPrimeAPrime));
			if (explorationValue > max) {
				max = explorationValue;
				a = aPrime;
			}
		}
		return a;
	}
}