chloeHXY issues

Results 4 issues of


                                            chloeHXY

老师您好，我三卡运行了ppo_training.py，命令如下： CUDA_VISIBLE_DEVICES=1,2,3 torchrun --nproc_per_node 3 ppo_training.py 观察输出我发现，代码中有一些logger.info的打印输出，都打印了三遍 48条数据，batchsize=8 , 分到每个gpu应该是约16条数据，steps=16/8=2 而我观察输出发现： 2025-02-18 19:16:13.464 | DEBUG | __main__:main:559 - Step 0/6: reward score:[tensor([-1.6240]), tensor([-2.7709]), tensor([-2.6670]), tensor([-0.6654]), tensor([-3.5599]), tensor([-3.7845]), tensor([-3.1603]), tensor([-6.4888])] 1it...

bug

baichuan2-7b ppo 训练，generate时报nan

response_tensors = ppo_trainer.generate( question_tensors, return_prompt=False, # length_sampler=output_length_sampler, **generation_kwargs, ) 报错：RuntimeError: probability tensor contains either inf, nan or element < 0 将 generation_kwargs 中的 do_sample设为False解决，但这会影响ppo的搜索空间。老师遇到过这种情况吗？

bug

reward model 训练数据量的问题

老师您好，我是NLP萌新，想请教您一个问题： 1. 训练医疗大模型，reward model的训练数据是什么呢，是医疗有关的（图1 的4k条数据）还是图二这种和医疗无关的呢？还是两者混合？ 2.如果要混合，比例大概是多少呢？ 3.训练reward model，数据量一般多少才有效呢？

question

chloeHXY

feat

torchrun 数据并行是否成功？

baichuan2-7b ppo 训练，generate时报nan

reward model 训练数据量的问题