YSQ-boop comments

Results 3 comments of


                                            YSQ-boop

如何训练react类型多轮人机对话(非深度探索的多轮)

> 第2个user是静态的，多轮对话里事先写好的，不与环境交互。算loss的时候，相当先基于system, user算第一个assistant的loss, 第2个assistant是基于[system, user, assistant, user来算。SFT流程，就是把system、user都mask掉，算全部assitant的loss。也就不需要我手动拆成多个单轮对话。 > > 但强化学习流程，涉及到GRPO后续采样存在多个输出，如果说我在第一个assistant用采样结果，没有用groud truth，那就导致上下文变了，第2个assitant就要基于新的上下文输出。所以我想到的，就是把多轮对话拆成多个单轮对话来训，但这样又显得太冗余。需要手工拆解吗，还是当前代码有什么特别的处理方法，可以直接训这种多轮？我也有同样的疑惑，请问大佬有解决思路了吗

DeepSpeed AutoTP with Hybrid Engine

请问通过哪些参数开启呢？通过更新deepspeed版本和设置--zero_stage 1 吗

wandb中记录的train/generated_samples，sample和reward不是对应的吗

> 应该是对应的把我测试发现，记录的answer与reward并不是对应的，所以产生疑问。