2934997384
Results
2
comments of
2934997384
您好,您看看这个问题
感谢您的澄清!我重新对齐了代码逻辑,理解如下,如果有误请您指正: - policy_gradient_loss() 中使用的是原始 reward(1/3/4/-1),这部分确实已经用于训练; - 后面对 reward 的 0/1 处理仅用于 logging,和训练无关(这一点我之前误解了,感谢说明!) 我现在主要疑惑的是 cost-aware 部分: 论文中 reward 包含 base_reward – λ * delay, 但目前开源实现里 delay 只在测试阶段统计平均值,未参与 policy_gradient_loss 或梯度更新。 这意味着训练目标更接近“最大化正确率”,而非“最大化 reward...