VLMEvalKit icon indicating copy to clipboard operation
VLMEvalKit copied to clipboard

Qwen2.5-VL-3B-Instruct在很多评测数据集的指标与官方榜单差距较大

Open LIRENDA621 opened this issue 9 months ago • 5 comments

torch版本2.5.1 transformers版本4.49.0.dev0 judge模型gpt-4o-turble generation_config: top_p=0.001, top_k=1, temperature=0.01, repetition_penalty=1.0,

自测结果: AI2D: 0.7836 DynaMath (worst case overall): 0.067 HallusionBench: 42.49 MMU(val): 0.48 MMStar: 0.544

官方结果: AI2D: 0.814 DynaMath (worst case overall): 0.132 HallusionBench: 46.6 MMU(val): 0.512 MMStar: 0.563

在其他一些数据集上我测的结果比官方榜单高,总体avg差距不是特别大。 但是上述的DynaMath、HallusionBench、MMU(val)和榜单差距有点太大了。不知道是什么原因造成的呢?

LIRENDA621 avatar Apr 11 '25 03:04 LIRENDA621

您好,对于您的Generation Config:

top_p=0.001,
top_k=1,
temperature=0.01,
repetition_penalty=1.0,

我们在评测的时候一般仅设置temperature=0,用于确保结果的稳定性。此外,torch版本和transformers的版本也会造成影响。

PhoenixZ810 avatar Apr 16 '25 03:04 PhoenixZ810

您好,对于您的Generation Config:

top_p=0.001,
top_k=1,
temperature=0.01,
repetition_penalty=1.0,

我们在评测的时候一般仅设置temperature=0,用于确保结果的稳定性。此外,torch版本和transformers的版本也会造成影响。

您好,感谢您的回答。请问可以提供Qwen2.5-VL的官方测试环境吗,比如torch transformers版本?

LIRENDA621 avatar Apr 16 '25 13:04 LIRENDA621

Same problem, could the official team release the complete information about the testing environment?

lose4578 avatar May 09 '25 12:05 lose4578

您好,对于您的Generation Config:

top_p=0.001,
top_k=1,
temperature=0.01,
repetition_penalty=1.0,

我们在评测的时候一般仅设置temperature=0,用于确保结果的稳定性。此外,torch版本和transformers的版本也会造成影响。

您好,请问可以问一下qwen2.5-vl的详细参数设置吗? 我测出来的docvqa与官方基本一致,所以想要详细参数

mxw20010804 avatar Jun 06 '25 06:06 mxw20010804

请问一下,judge model的选择对测试集指标的影响大吗?

Keyird avatar Sep 23 '25 17:09 Keyird