YSQ-boop
YSQ-boop
感谢优秀的开源工作! 我想咨询一下: 1. ref_model可以替换为其他的模型吗,当前是跟actor一致。 2. 我尝试替换了之后ref的pretrain路径之后,会在train epoch阶段停止或者forward阶段停止。 3. 直接替换ref_model启动路径是否有一些我没有注意到的限制? 非常感谢您的解答!
我查看的相关代码如下: `experiences = self.experience_maker.make_experience_batch(rollout_samples,steps) # balance experiences across dp if args.use_dynamic_batch: experiences = balance_experiences(experiences, args) sample0 = self.tokenizer.batch_decode( experiences[0].sequences[0].unsqueeze(0), skip_special_tokens=True ) print(sample0) refs = self.actor_model_group.async_run_method_batch(method_name="append", experience=experiences) if self.critic_model_group is not...
agent_func、reward_func时--normalization_reward参数不起作用,对吗 我是否也可以理解为normalization_reward其实是normalization_value,只有包含critic model时才生效