Lusheng Zhang
Lusheng Zhang
请问bert是在什么代码下测试的
是的,代码里分类层没加mask是个bug,我修复一下,谢谢~
可能老师模型的训练输出prob不够极端,可以多训练几个Epoch再看看?
我的测试机器是8核机器,我记得跑满CPU负载是400%+,可能和核数有关系
因为蒸馏阶段本质是 学生学习老师的输出,那么可以是任何数据输入老师模型得到学生的学习目标。为了蒸馏效率,推荐使用和任务相关的数据(如待标注数据)来保持类别的均衡性,默认的script_train_stage1.sh直接使用了训练数据。
非常关注这里,deepspeed训练中断问题是最最最最最老大难的问题了。。。。
> For datasets on OpenCompass 1.0 Leaderboard, you can just move your cursor on the score of the dataset to find the config. For example, the config for C-Eval can...
感谢回复。我有个疑问就是我查看代码中并没有发现 先样本内mean再样本间mean的内容,我是看你的README中 llama用的sorted batching,然后modeling_llama中loss是没有平均,flat成token loss序列,然后送入transformer.Trainer中训练,是transformer.Trainer中做了两次求mean吗?