VLMEvalKit 【提问】关于其他测试集的支持

hi, 感谢你们团队的工作。我想咨询一下，

请问后续会支持GQA,OKVQA,CMMMU这些测试集的推理评估吗？
后续会像opencompass一样，支持调用api进行多模态评估吗？
chartqa，textvqa这些分数对不上官方论文的数值，请问后续会进行优化吗？

Feb 28 '24 03:02 mary-0830

Hi, @mary-0830 ,

有计划
目前我们已支持 API 评估，请参考 GPT-4v, GeminiProVision 等样例
后续有安排，约在一两周后

Mar 01 '24 07:03 kennymckormick

hi， @kennymckormick ，感谢你的回复哈。还想咨询两个问题：

sciqa的数据量好像和官方的数据量对不齐（sciqa_test数据量是4241，而您提供的是2017）。是不是因为sciqa这部分只抽取了vlm的部分，纯文本的部分就去掉了。那如果想要使用vlmeval测试sciqa是需要执行两个库才能完成吗？
chartqa也有数据量不对齐的问题，我看chartqa_human的部分测试数量是1250，但是您提供的数量是2210。

Mar 01 '24 08:03 mary-0830

hi， @kennymckormick ，感谢你的回复哈。还想咨询两个问题：

sciqa的数据量好像和官方的数据量对不齐（sciqa_test数据量是4241，而您提供的是2017）。是不是因为sciqa这部分只抽取了vlm的部分，纯文本的部分就去掉了。那如果想要使用vlmeval测试sciqa是需要执行两个库才能完成吗？

chartqa也有数据量不对齐的问题，我看chartqa_human的部分测试数量是1250，但是您提供的数量是2210。

针对第二个问题，chartqa这个数据集您包含了test共1250条数据，val共960条数据，所以数据量是2210。对于这个分数分数太低的问题，您可以在VLMEvalKit/vlmeval/utils/dataset.py中build_prompt添加这一串prompt，效果会得到一定的提升。（我看其他模型测试时也添加了这个提示） elif DATASET_TYPE(dataset) == 'VQA': prompt += "\nAnswer the question using a single word or phrase."

Mar 05 '24 05:03 mary-0830

hi, @kennymckormick 请问VLMEVALKIT后续会支持ConvBench评估吗？

Jul 17 '24 08:07 mary-0830