VLMEvalKit icon indicating copy to clipboard operation
VLMEvalKit copied to clipboard

【提问】关于其他测试集的支持

Open mary-0830 opened this issue 2 years ago • 5 comments

hi, 感谢你们团队的工作。 我想咨询一下,

  1. 请问后续会支持GQA,OKVQA,CMMMU这些测试集的推理评估吗?
  2. 后续会像opencompass一样,支持调用api进行多模态评估吗?
  3. chartqa,textvqa这些分数对不上官方论文的数值,请问后续会进行优化吗?

mary-0830 avatar Feb 28 '24 03:02 mary-0830

Hi, @mary-0830 ,

  1. 有计划
  2. 目前我们已支持 API 评估,请参考 GPT-4v, GeminiProVision 等样例
  3. 后续有安排,约在一两周后

kennymckormick avatar Mar 01 '24 07:03 kennymckormick

hi, @kennymckormick , 感谢你的回复哈。还想咨询两个问题:

  1. sciqa的数据量好像和官方的数据量对不齐(sciqa_test数据量是4241,而您提供的是2017)。是不是因为sciqa这部分只抽取了vlm的部分,纯文本的部分就去掉了。那如果想要使用vlmeval测试sciqa是需要执行两个库才能完成吗?
  2. chartqa也有数据量不对齐的问题,我看chartqa_human的部分测试数量是1250,但是您提供的数量是2210。

mary-0830 avatar Mar 01 '24 08:03 mary-0830

hi, @kennymckormick , 感谢你的回复哈。还想咨询两个问题:

  1. sciqa的数据量好像和官方的数据量对不齐(sciqa_test数据量是4241,而您提供的是2017)。是不是因为sciqa这部分只抽取了vlm的部分,纯文本的部分就去掉了。那如果想要使用vlmeval测试sciqa是需要执行两个库才能完成吗?
  2. chartqa也有数据量不对齐的问题,我看chartqa_human的部分测试数量是1250,但是您提供的数量是2210。

针对第二个问题,chartqa这个数据集您包含了test共1250条数据,val共960条数据,所以数据量是2210。对于这个分数分数太低的问题,您可以在VLMEvalKit/vlmeval/utils/dataset.py中build_prompt添加这一串prompt,效果会得到一定的提升。(我看其他模型测试时也添加了这个提示) elif DATASET_TYPE(dataset) == 'VQA': prompt += "\nAnswer the question using a single word or phrase."

mary-0830 avatar Mar 05 '24 05:03 mary-0830

hi, @kennymckormick 请问VLMEVALKIT后续会支持ConvBench评估吗?

mary-0830 avatar Jul 17 '24 08:07 mary-0830