chloeHXY

Results 4 issues of chloeHXY

second chronograph

老师您好,我三卡运行了ppo_training.py,命令如下: CUDA_VISIBLE_DEVICES=1,2,3 torchrun --nproc_per_node 3 ppo_training.py 观察输出我发现,代码中有一些logger.info的打印输出,都打印了三遍 48条数据,batchsize=8 , 分到每个gpu应该是约16条数据,steps=16/8=2 而我观察输出发现: 2025-02-18 19:16:13.464 | DEBUG | __main__:main:559 - Step 0/6: reward score:[tensor([-1.6240]), tensor([-2.7709]), tensor([-2.6670]), tensor([-0.6654]), tensor([-3.5599]), tensor([-3.7845]), tensor([-3.1603]), tensor([-6.4888])] 1it...

bug

response_tensors = ppo_trainer.generate( question_tensors, return_prompt=False, # length_sampler=output_length_sampler, **generation_kwargs, ) 报错:RuntimeError: probability tensor contains either inf, nan or element < 0 将 generation_kwargs 中的 do_sample设为False解决,但这会影响ppo的搜索空间。 老师遇到过这种情况吗?

bug

老师您好,我是NLP萌新,想请教您一个问题: 1. 训练医疗大模型,reward model的训练数据是什么呢,是医疗有关的(图1 的4k条数据)还是图二这种和医疗无关的呢?还是两者混合? 2.如果要混合,比例大概是多少呢? 3.训练reward model,数据量一般多少才有效呢?

question