YSQ-boop
YSQ-boop
> 第2个user是静态的,多轮对话里事先写好的,不与环境交互。算loss的时候,相当先基于system, user算第一个assistant的loss, 第2个assistant是基于[system, user, assistant, user来算。SFT流程,就是把system、user都mask掉,算全部assitant的loss。也就不需要我手动拆成多个单轮对话。 > > 但强化学习流程,涉及到GRPO后续采样存在多个输出,如果说我在第一个assistant用采样结果,没有用groud truth,那就导致上下文变了,第2个assitant就要基于新的上下文输出。所以我想到的,就是把多轮对话拆成多个单轮对话来训,但这样又显得太冗余。需要手工拆解吗,还是当前代码有什么特别的处理方法,可以直接训这种多轮? 我也有同样的疑惑,请问大佬有解决思路了吗
请问通过哪些参数开启呢?通过更新deepspeed版本和设置--zero_stage 1 吗
> 应该是对应的把 我测试发现,记录的answer与reward并不是对应的,所以产生疑问。