VLMEvalKit
VLMEvalKit copied to clipboard
[BUG?] 使用同样的模型,在此 repo下跑推理与模型官方(例如 LLaVA)的推理 demo 结果不同
例如:
from vlmeval.config import supported_VLM
model = supported_VLM['llava_v1.5_7b']()
ret = model.generate([{'type': 'image', 'value': '${your_home}/LMUData/images/MME/945.jpg'}, {'type': 'text', 'value': 'This is a picture from a real scene. Is there only two real apples in this picture? Please answer yes or no.'}])
print(ret)
得出来输出为1!似乎看起来 instruction-following 能力很弱 : (
然而,使用 llava 官方提供的 CLI 测试结果输出为 Yes/No!!!
需要注意的是,如果把 Please answer yes or no. 前面仅有一个空格改为两个空格,在本 repo 代码下也能输出 Yes/No???
@kennymckormick 麻烦您帮忙看下是不是有 bug,测试的几个结果不好的似乎都是由于没有按照要求输出,也就是“仅在本 repo”出现的 instruction-following 弱的情况。