Lusheng Zhang comments

Results 8 comments of


                                            Lusheng Zhang

单样本推理时长统计

请问bert是在什么代码下测试的

FastBERTClassifier类实现未使用attention mask

是的，代码里分类层没加mask是个bug，我修复一下，谢谢~

复现结果

可能老师模型的训练输出prob不够极端，可以多训练几个Epoch再看看？

复现结果

我的测试机器是8核机器，我记得跑满CPU负载是400%+，可能和核数有关系

请问一下蒸馏阶段的无监督数据指的是什么？

因为蒸馏阶段本质是学生学习老师的输出，那么可以是任何数据输入老师模型得到学生的学习目标。为了蒸馏效率，推荐使用和任务相关的数据（如待标注数据）来保持类别的均衡性，默认的script_train_stage1.sh直接使用了训练数据。

关于deepspeed的限制突破的代码是哪部分

非常关注这里，deepspeed训练中断问题是最最最最最老大难的问题了。。。。

官网上每个数据集所使用的config文件的版本如何知道？

> For datasets on OpenCompass 1.0 Leaderboard, you can just move your cursor on the score of the dataset to find the config. For example, the config for C-Eval can...

关于Packing和直接Batch的loss区别？

感谢回复。我有个疑问就是我查看代码中并没有发现先样本内mean再样本间mean的内容，我是看你的README中 llama用的sorted batching，然后modeling_llama中loss是没有平均，flat成token loss序列，然后送入transformer.Trainer中训练，是transformer.Trainer中做了两次求mean吗?