hkr04

Results 1 issues of hkr04

这里 $Q_\pi(s_t^n, a_t^n)$ 期望形式中的上标应该是 $l-t$ 而不是 $l$,因为 $Q_\pi(s_t^n, a_t^n)$ 是从时间步 $t$ 的角度进行累积的,外面已经乘上了对于时间步 $0$ 而言的折扣因子,不应该重复做折扣。 ![UV 85(LGMVWUQ$TZ40BS_MI](https://github.com/user-attachments/assets/8d30a8ae-dc4c-4d2f-962e-10d9573c9114)