encode_img中的instruction作用
video_chat2中的videochat2_it.py代码里的 def encode_img(self, image, instruction)中的instruction的作用具体是什么? https://github.com/OpenGVLab/Ask-Anything/blob/main/video_chat2/models/videochat2_it.py#L174
可以看看论文里videochat2 three-stage训练pipeline哈,这个instruction是在stage3时插入到QFormer中,辅助QFormer更好地获取所需要的上下文信息,从而提升LLM回复的效果
我想请教下,为什么在处理数据时,instruction后面要添加第一个问题的question部分,即qa[0]["q"]。只使用instruction本身不行吗?
详见代码it_dataset.py的101-102行,谢谢!
这个加不加都可以的,我们实验里加上效果会略好些
@Andy1621 hi, 但是我看demo里面,instruction是使用的通用的watch the video and answer the question. 为啥不让用户输入instruction呢? 效果差异大吗?
可以自己做实验试试区别哈,当时做demo随意指定了一个instruction~