2934997384 comments

Repositories
Issues
Comments

Results 2 comments of

2934997384

开源代码里的 reward lambda_cost 完全未实现

您好,您看看这个问题

开源代码里的 reward lambda_cost 完全未实现

感谢您的澄清！我重新对齐了代码逻辑，理解如下，如果有误请您指正： - policy_gradient_loss() 中使用的是原始 reward（1/3/4/-1），这部分确实已经用于训练； - 后面对 reward 的 0/1 处理仅用于 logging，和训练无关（这一点我之前误解了，感谢说明！）我现在主要疑惑的是 cost-aware 部分：论文中 reward 包含 base_reward – λ * delay，但目前开源实现里 delay 只在测试阶段统计平均值，未参与 policy_gradient_loss 或梯度更新。这意味着训练目标更接近“最大化正确率”，而非“最大化 reward...