VLMEvalKit
VLMEvalKit copied to clipboard
【提问】关于其他测试集的支持
hi, 感谢你们团队的工作。 我想咨询一下,
- 请问后续会支持GQA,OKVQA,CMMMU这些测试集的推理评估吗?
- 后续会像opencompass一样,支持调用api进行多模态评估吗?
- chartqa,textvqa这些分数对不上官方论文的数值,请问后续会进行优化吗?
Hi, @mary-0830 ,
- 有计划
- 目前我们已支持 API 评估,请参考 GPT-4v, GeminiProVision 等样例
- 后续有安排,约在一两周后
hi, @kennymckormick , 感谢你的回复哈。还想咨询两个问题:
- sciqa的数据量好像和官方的数据量对不齐(sciqa_test数据量是4241,而您提供的是2017)。是不是因为sciqa这部分只抽取了vlm的部分,纯文本的部分就去掉了。那如果想要使用vlmeval测试sciqa是需要执行两个库才能完成吗?
- chartqa也有数据量不对齐的问题,我看chartqa_human的部分测试数量是1250,但是您提供的数量是2210。
hi, @kennymckormick , 感谢你的回复哈。还想咨询两个问题:
- sciqa的数据量好像和官方的数据量对不齐(sciqa_test数据量是4241,而您提供的是2017)。是不是因为sciqa这部分只抽取了vlm的部分,纯文本的部分就去掉了。那如果想要使用vlmeval测试sciqa是需要执行两个库才能完成吗?
- chartqa也有数据量不对齐的问题,我看chartqa_human的部分测试数量是1250,但是您提供的数量是2210。
针对第二个问题,chartqa这个数据集您包含了test共1250条数据,val共960条数据,所以数据量是2210。对于这个分数分数太低的问题,您可以在VLMEvalKit/vlmeval/utils/dataset.py中build_prompt添加这一串prompt,效果会得到一定的提升。(我看其他模型测试时也添加了这个提示)
elif DATASET_TYPE(dataset) == 'VQA': prompt += "\nAnswer the question using a single word or phrase."
hi, @kennymckormick 请问VLMEVALKIT后续会支持ConvBench评估吗?