EpsilonGreedyAgent.java example

Explorer

D-MARLA-master
- Environments
  - Cliff
    - CliffEnvironment
      - src
        Actions
        ActionDescription.java
        Direction.java
        EnvironmentState.java
        CliffEnvironmentPlugin.java
        CliffEnvironmentPluginDescriptor.java
        Logic
        GridType.java
        GridWorldConfiguration.java
        GridWorldStyle.java
        IllegalMoveException.java
        Session.java
        Statistics
        CliffReplay.java
    - CliffQLearning
      - src
        CliffQLearningAgentDescriptor.java
        CliffQLearningAgentSystem.java
  - Factory
    - FactoryEnvironment
      - src
        Factory
        CustomMessages
        ActionListMessage.java
        GameStateMessage.java
        Exceptions
        ErrorMessages.java
        FactoryPluginDescriptor.java
        GameLogic
        Enums
        Direction.java
        Faction.java
        EventTyp.java
        Exceptions
        ConsistencyFaultException.java
        NoUnitFoundException.java
        Game.java
        GameActors
        AbstractField.java
        Factory.java
        FactoryField.java
        GameReplay.java
        InfluenceField.java
        NormalField.java
        Player.java
        Unit.java
        GameLogicComponent.java
        GameLogicUseCase.java
        MapGenerator.java
        MapScanner.java
        RuleBook.java
        TransportTypes
        TAbstractField.java
        TAction.java
        TActionsInTurn.java
        TFactory.java
        TFactoryField.java
        TGameReplay.java
        TGameState.java
        TInfluenceField.java
        TMapState.java
        TNormalField.java
        TPlayer.java
        TPosition.java
        TUnit.java
        Utility
        DeepObjectCopy.java
        GameInfos.java
        Interfaces
        IHasConsistencyCheck.java
        IHasTransportType.java
        UnitTest
        DummyStatistics.java
        GameLogicComponentTest.java
        SaveGameReplayTest.java
        TestCustomNetworkMessages.java
        Visualization
        VisualizeReplay.java
    - HierarchicalFactoryPlayer
      - src
        HierarchicalFactoryPlayer
        HierarchicalFactoryPlayerDescription.java
        HierarchicalFactoryPlayerSystem.java
        StateActionGenerators
        EvaluatorStateActionGenerator.java
        MoverStateActionGenerator.java
    - RandomAgentV1
      - src
        Export
        RandomAgentDescriptor.java
        RandomAgentImplementation.java
    - SimpleFactoryPlayer
      - src
        SimpleFactoryPlayer
        Implementation
        Entities
        RawField.java
        RawState.java
        Enums
        FieldType.java
        FriendFoe.java
        SpawnInterval.java
        SimpleFactoryPlayerDescriptor.java
        SimpleFactoryPlayerSystem.java
        StateActionGenerator.java
        UnitTest
        DummyAgent.java
        DummyPluginProvider.java
        FriendFoeTest.java
        SimpleFactoryPlayerSystemTest.java
        StateActionGeneratorTest.java
    - SimpleFactoryPlayerVolume2
      - src
        SimpleFactoryPlayer
        Implementation
        Entities
        RawField.java
        RawState.java
        Enums
        FieldType.java
        FriendFoe.java
        SpawnInterval.java
        SimpleFactoryPlayerDescriptor.java
        SimpleFactoryPlayerVolume2System.java
        StateActionGenerator.java
        UnitTest
        DummyAgent.java
        DummyPluginProvider.java
        FriendFoeTest.java
        SimpleFactoryPlayerSystemTest.java
        StateActionGeneratorTest.java
- Implementation

package AgentProvider.Implementation.Agents;

import AgentSystemPluginAPI.Contract.IStateActionGenerator;
import AgentSystemPluginAPI.Contract.StateAction;
import AgentSystemPluginAPI.Services.IAgent;
import EnvironmentPluginAPI.Exceptions.TechnicalException;
import ZeroTypes.Exceptions.ErrorMessages;

import java.util.Random;
import java.util.Set;

/**
 * The abstract implementation of an epsilon-greedy agent.
 * <p/>
 * Note, that the agent's learning parameters are all 0.0f by default.
 */
abstract class EpsilonGreedyAgent implements IAgent {

    //agent settings
    private float epsilon;
    private float lambda;
    private float gamma;
    private float alpha;
    private String name;

    //epsilon greedy implementation
    protected final IDictionary qValues;

    private IStateActionGenerator stateActionGenerator;
    //technical
    private final IAgentSettingUpdatedListener settingUpdatedListener;

    //caching
    private Random random = new Random();

    public EpsilonGreedyAgent(String name, IDictionary qValues, IStateActionGenerator stateActionGenerator,IAgentSettingUpdatedListener settingUpdatedListener) {
        this.name = name;
        this.stateActionGenerator = stateActionGenerator;
        this.settingUpdatedListener = settingUpdatedListener;
        this.qValues = qValues;
    }

    protected StateAction getBestAction(StateAction state) throws TechnicalException {

        float value = Float.NEGATIVE_INFINITY;
        float tmp = 0;
        StateAction result = null;
        for (StateAction action : stateActionGenerator.getAllPossibleActions(state)) {
            tmp = qValues.getValue(action);
            if(tmp >= value) {
                value = tmp;
                result = action;
            }
        }

        return result;
    }

    protected StateAction getEpsilonInfluencedAction(StateAction state) throws TechnicalException {

        StateAction result;

        // get all possible actions and test their validity
        Set<StateAction> possibleActions = stateActionGenerator.getAllPossibleActions(state);
        for(StateAction sa : possibleActions) {
            if(sa == null || sa.getCompressedRepresentation() == null) {
                throw new RuntimeException(ErrorMessages.get("erroneousStateActionGenerator"));
            }
        }

        // If there are alternatives:
        // normally choose the best one, but by chance choose one with a worse expected reward
        // else take the single one.
        if(possibleActions.size() > 1 && epsilon >= random.nextFloat()) {

            possibleActions.remove(getBestAction(state));

            StateAction[] stateActions = new StateAction[possibleActions.size()];

            int i = 0;
            for(StateAction action : possibleActions) {
                stateActions[i] = new StateAction(state.getStateDescription(), action.getActionDescription());
                i++;
            }

            result = stateActions[random.nextInt(stateActions.length)];

        } else {
            result = getBestAction(state);
        }

        return  result;
    }

    public abstract StateAction step(float rewardForLastStep, StateAction newState) throws TechnicalException;

    private void fireSettingChangedEvent(AgentSettingName name) {
        switch (name) {
            case ALPHA:
                settingUpdatedListener.onAgentSettingUpdated(this, AgentSettingName.ALPHA, alpha);
                break;
            case EPSILON:
                settingUpdatedListener.onAgentSettingUpdated(this, AgentSettingName.EPSILON, epsilon);
                break;
            case GAMMA:
                settingUpdatedListener.onAgentSettingUpdated(this, AgentSettingName.GAMMA, gamma);
                break;
            case LAMBDA:
                settingUpdatedListener.onAgentSettingUpdated(this, AgentSettingName.LAMBDA, lambda);
                break;
        }
    }

    public void setAlpha(float alpha) {
        this.alpha = alpha;
        fireSettingChangedEvent(AgentSettingName.ALPHA);
    }

    public float getAlpha() {
        return alpha;
    }

    public void setEpsilon(float epsilon) {
        this.epsilon = epsilon;
        fireSettingChangedEvent(AgentSettingName.EPSILON);
    }

    public float getEpsilon() {
        return epsilon;
    }

    public void setGamma(float gamma) {
        this.gamma = gamma;

        fireSettingChangedEvent(AgentSettingName.GAMMA);
    }

    public float getGamma() {
        return gamma;
    }

    public void setLambda(float lambda) {
        this.lambda = lambda;
        fireSettingChangedEvent(AgentSettingName.LAMBDA);
    }

    public float getLambda() {
        return lambda;
    }

    public String getName() {
        return name;
    }
}