FFFFlint

Results 1 comments of FFFFlint

> 感谢回复!后续我发现是我自己的数据集没有加is_end的标记导致的,但是修复之后损失依旧会持续的缓慢上涨,请问对于这个问题你有什么看法吗? 在 2024-06-07 14:30:25,"FFFFlint" ***@***.***> 写道: 应该是训练稳定性的问题吧,可以试试把policy delay加大一点(默认是1,也就是每经过一个step都会和critic一起更新),比如设置为4,这样actor更新的就慢一点,如果更新太频繁可能会因为critic还没有train得太好而导致actor的loss很大~ — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>...