Qwen2.5-VL-3B-Instruct在很多评测数据集的指标与官方榜单差距较大
torch版本2.5.1 transformers版本4.49.0.dev0 judge模型gpt-4o-turble generation_config: top_p=0.001, top_k=1, temperature=0.01, repetition_penalty=1.0,
自测结果: AI2D: 0.7836 DynaMath (worst case overall): 0.067 HallusionBench: 42.49 MMU(val): 0.48 MMStar: 0.544
官方结果: AI2D: 0.814 DynaMath (worst case overall): 0.132 HallusionBench: 46.6 MMU(val): 0.512 MMStar: 0.563
在其他一些数据集上我测的结果比官方榜单高,总体avg差距不是特别大。 但是上述的DynaMath、HallusionBench、MMU(val)和榜单差距有点太大了。不知道是什么原因造成的呢?
您好,对于您的Generation Config:
top_p=0.001,
top_k=1,
temperature=0.01,
repetition_penalty=1.0,
我们在评测的时候一般仅设置temperature=0,用于确保结果的稳定性。此外,torch版本和transformers的版本也会造成影响。
您好,对于您的Generation Config:
top_p=0.001, top_k=1, temperature=0.01, repetition_penalty=1.0,我们在评测的时候一般仅设置temperature=0,用于确保结果的稳定性。此外,torch版本和transformers的版本也会造成影响。
您好,感谢您的回答。请问可以提供Qwen2.5-VL的官方测试环境吗,比如torch transformers版本?
Same problem, could the official team release the complete information about the testing environment?
您好,对于您的Generation Config:
top_p=0.001, top_k=1, temperature=0.01, repetition_penalty=1.0,我们在评测的时候一般仅设置temperature=0,用于确保结果的稳定性。此外,torch版本和transformers的版本也会造成影响。
您好,请问可以问一下qwen2.5-vl的详细参数设置吗? 我测出来的docvqa与官方基本一致,所以想要详细参数
请问一下,judge model的选择对测试集指标的影响大吗?