hkr04
Results
1
issues of
hkr04
这里 $Q_\pi(s_t^n, a_t^n)$ 期望形式中的上标应该是 $l-t$ 而不是 $l$,因为 $Q_\pi(s_t^n, a_t^n)$ 是从时间步 $t$ 的角度进行累积的,外面已经乘上了对于时间步 $0$ 而言的折扣因子,不应该重复做折扣。 