QLearningAgent.java example

Explorer

D-MARLA-master
- Environments
  - Cliff
    - CliffEnvironment
      - src
        Actions
        ActionDescription.java
        Direction.java
        EnvironmentState.java
        CliffEnvironmentPlugin.java
        CliffEnvironmentPluginDescriptor.java
        Logic
        GridType.java
        GridWorldConfiguration.java
        GridWorldStyle.java
        IllegalMoveException.java
        Session.java
        Statistics
        CliffReplay.java
    - CliffQLearning
      - src
        CliffQLearningAgentDescriptor.java
        CliffQLearningAgentSystem.java
  - Factory
    - FactoryEnvironment
      - src
        Factory
        CustomMessages
        ActionListMessage.java
        GameStateMessage.java
        Exceptions
        ErrorMessages.java
        FactoryPluginDescriptor.java
        GameLogic
        Enums
        Direction.java
        Faction.java
        EventTyp.java
        Exceptions
        ConsistencyFaultException.java
        NoUnitFoundException.java
        Game.java
        GameActors
        AbstractField.java
        Factory.java
        FactoryField.java
        GameReplay.java
        InfluenceField.java
        NormalField.java
        Player.java
        Unit.java
        GameLogicComponent.java
        GameLogicUseCase.java
        MapGenerator.java
        MapScanner.java
        RuleBook.java
        TransportTypes
        TAbstractField.java
        TAction.java
        TActionsInTurn.java
        TFactory.java
        TFactoryField.java
        TGameReplay.java
        TGameState.java
        TInfluenceField.java
        TMapState.java
        TNormalField.java
        TPlayer.java
        TPosition.java
        TUnit.java
        Utility
        DeepObjectCopy.java
        GameInfos.java
        Interfaces
        IHasConsistencyCheck.java
        IHasTransportType.java
        UnitTest
        DummyStatistics.java
        GameLogicComponentTest.java
        SaveGameReplayTest.java
        TestCustomNetworkMessages.java
        Visualization
        VisualizeReplay.java
    - HierarchicalFactoryPlayer
      - src
        HierarchicalFactoryPlayer
        HierarchicalFactoryPlayerDescription.java
        HierarchicalFactoryPlayerSystem.java
        StateActionGenerators
        EvaluatorStateActionGenerator.java
        MoverStateActionGenerator.java
    - RandomAgentV1
      - src
        Export
        RandomAgentDescriptor.java
        RandomAgentImplementation.java
    - SimpleFactoryPlayer
      - src
        SimpleFactoryPlayer
        Implementation
        Entities
        RawField.java
        RawState.java
        Enums
        FieldType.java
        FriendFoe.java
        SpawnInterval.java
        SimpleFactoryPlayerDescriptor.java
        SimpleFactoryPlayerSystem.java
        StateActionGenerator.java
        UnitTest
        DummyAgent.java
        DummyPluginProvider.java
        FriendFoeTest.java
        SimpleFactoryPlayerSystemTest.java
        StateActionGeneratorTest.java
    - SimpleFactoryPlayerVolume2
      - src
        SimpleFactoryPlayer
        Implementation
        Entities
        RawField.java
        RawState.java
        Enums
        FieldType.java
        FriendFoe.java
        SpawnInterval.java
        SimpleFactoryPlayerDescriptor.java
        SimpleFactoryPlayerVolume2System.java
        StateActionGenerator.java
        UnitTest
        DummyAgent.java
        DummyPluginProvider.java
        FriendFoeTest.java
        SimpleFactoryPlayerSystemTest.java
        StateActionGeneratorTest.java
- Implementation

package AgentProvider.Implementation.Agents;


import AgentSystemPluginAPI.Contract.IStateActionGenerator;
import AgentSystemPluginAPI.Contract.StateAction;
import EnvironmentPluginAPI.Exceptions.TechnicalException;
import ZeroTypes.Exceptions.ErrorMessages;

public class QLearningAgent extends EpsilonGreedyAgent {
    private StateAction sa;
    private float maxQ;
    private float oldQ;


	public QLearningAgent(String name, IDictionary qValues, IStateActionGenerator stateActionGenerator, IAgentSettingUpdatedListener agentSettingUpdatedListener) {
		super(name, qValues, stateActionGenerator, agentSettingUpdatedListener);
	}

    @Override
    public StateAction startEpisode(StateAction state) throws TechnicalException {
        sa = getEpsilonInfluencedAction(state);
        return sa;
    }

    @Override
    public StateAction getCurrentState() {
        return sa;
    }

    @Override
    public StateAction step(float rewardForLastStep, StateAction newState) throws TechnicalException {
        if(sa == null) {
            throw new RuntimeException(ErrorMessages.get("startStateNotInitialized", getName()));
        }

        updateQ(sa, getBestAction(newState), rewardForLastStep);

        sa = getEpsilonInfluencedAction(newState);
        return sa;
    }

    @Override
    public void endEpisode(StateAction lastState, float reward) throws TechnicalException {
        updateQ(sa, getBestAction(lastState), reward);
        sa = null;
    }

    protected void updateQ(StateAction sa, StateAction s_a_, float reward) throws TechnicalException {
        oldQ = qValues.getValue(sa);

        //determine the Q Value of the sa action because we take its
        //value for learning, no matter what was really s_a_.
        maxQ = qValues.getValue(getBestAction(s_a_));
        qValues.setValue(sa, oldQ + (getAlpha() * (reward + (getGamma() * maxQ) - oldQ)));
    }
}