Multi-agent-RL
Multi-agent-RL copied to clipboard
TD-Linear中Reward list 坐标对应错误
TD-Linear中reward list初始化有问题,和GridEnv PSA矩阵的初始化过程中的reward list的顺序不一致:
这会导致TD-Linear中的
policy_evaluation函数得不到正确的状态值
另外,原代码中这里少乘了一个 $\phi(s_t)$
感谢您指出的问题!