OpenRLHF
OpenRLHF copied to clipboard
agent_func、reward_func时--normalization_reward参数不起作用,对吗
agent_func、reward_func时--normalization_reward参数不起作用,对吗 我是否也可以理解为normalization_reward其实是normalization_value,只有包含critic model时才生效
对