Ziyuan Ye
Ziyuan Ye
Same here. I'm sure I used the original code and there is no problem with the environment configuration. However, the test MAE result I reproduced on the ZINC subset is...
在Q-learning: Off-policy TD Control章节,提到了“Sarsa 在更新 Q 表格的时候,它用到的 A' 。我要获取下一个 Q 值的时候,A' 是下一个 step 一定会执行的 action。这个 action 有可能是 ε-greedy 方法采样出来的值,也有可能是 max Q 对应的 action,也有可能是随机动作,但这是它实际执行的那个动作。”。我想问下,ε-greedy 方法采样出来的值不是就包括了 max Q对应的动作和随机动作吗?
> > 在Q-learning: Off-policy TD Control章节,提到了“Sarsa 在更新 Q 表格的时候,它用到的 A' 。我要获取下一个 Q 值的时候,A' 是下一个 step 一定会执行的 action。这个 action 有可能是 ε-greedy 方法采样出来的值,也有可能是 max Q 对应的 action,也有可能是随机动作,但这是它实际执行的那个动作。”。我想问下,ε-greedy 方法采样出来的值不是就包括了 max Q对应的动作和随机动作吗? > >...
同样的bug,在win11更新完突然有了这个bug
用[Tailscale](https://tailscale.com)创建电脑和手机的P2P连接。然后下载 [scrcpy](https://github.com/Genymobile/scrcpy/releases) 。把手机用usb连上电脑后,通过在命令行运行 `scrcpy --tcpip`完成IP配置。然后就可以继续无线连接了。刚刚试了,亲测可用 @asu00131