eval-scope
eval-scope copied to clipboard
关于few-shot的一些问题
请问为什么把benchmark的few-shot都写死成0了?自己手动设置few_shot_num=few_shot_num是否有问题,在测试hellaswag时zero-shot分数反而比10-shot高,感谢您的回复
Hi
- 实验settings的问题,近两天会出一个增加配置化的版本(可以传yaml、dataclass or dict);few-shot的设置同样包含在其中,做成配置化
- 现有实验发现,模型在某些数据集上,0-shot上的表现确实会比k-shot上好。推测跟每个模型的Instruction following能力有关,k-shot prompts中会带有
patterns with bias,反过来导致效果下降。
另,如果不走配置文件的方式,如果从run命令中传入,可以采用如下方式: --dataset-args 参数中,传入 {'mmlu': {'few_shot_num': 5}, ...} 这样的方式,来设置该参数。
另,如果不走配置文件的方式,如果从run命令中传入,可以采用如下方式: --dataset-args 参数中,传入 {'mmlu': {'few_shot_num': 5}, ...} 这样的方式,来设置该参数。
了解!感谢您的回复!