VLMEvalKit Qwen2.5-VL-3B-Instruct在很多评测数据集的指标与官方榜单差距较大

torch版本2.5.1 transformers版本4.49.0.dev0 judge模型gpt-4o-turble generation_config: top_p=0.001, top_k=1, temperature=0.01, repetition_penalty=1.0,

自测结果： AI2D: 0.7836 DynaMath (worst case overall): 0.067 HallusionBench: 42.49 MMU(val): 0.48 MMStar: 0.544

官方结果： AI2D: 0.814 DynaMath (worst case overall): 0.132 HallusionBench: 46.6 MMU(val): 0.512 MMStar: 0.563

在其他一些数据集上我测的结果比官方榜单高，总体avg差距不是特别大。但是上述的DynaMath、HallusionBench、MMU(val)和榜单差距有点太大了。不知道是什么原因造成的呢？

Apr 11 '25 03:04 LIRENDA621

您好，对于您的Generation Config：

top_p=0.001,
top_k=1,
temperature=0.01,
repetition_penalty=1.0,

我们在评测的时候一般仅设置temperature=0，用于确保结果的稳定性。此外，torch版本和transformers的版本也会造成影响。

Apr 16 '25 03:04 PhoenixZ810

您好，对于您的Generation Config：
top_p=0.001,
top_k=1,
temperature=0.01,
repetition_penalty=1.0,
我们在评测的时候一般仅设置temperature=0，用于确保结果的稳定性。此外，torch版本和transformers的版本也会造成影响。

您好，感谢您的回答。请问可以提供Qwen2.5-VL的官方测试环境吗，比如torch transformers版本？

Apr 16 '25 13:04 LIRENDA621

Same problem, could the official team release the complete information about the testing environment?

May 09 '25 12:05 lose4578

您好，对于您的Generation Config：
top_p=0.001,
top_k=1,
temperature=0.01,
repetition_penalty=1.0,
我们在评测的时候一般仅设置temperature=0，用于确保结果的稳定性。此外，torch版本和transformers的版本也会造成影响。

您好，请问可以问一下qwen2.5-vl的详细参数设置吗？我测出来的docvqa与官方基本一致，所以想要详细参数

Jun 06 '25 06:06 mxw20010804

请问一下，judge model的选择对测试集指标的影响大吗？

Sep 23 '25 17:09 Keyird