Ask-Anything encode_img中的instruction作用

video_chat2中的videochat2_it.py代码里的 def encode_img(self, image, instruction)中的instruction的作用具体是什么？ https://github.com/OpenGVLab/Ask-Anything/blob/main/video_chat2/models/videochat2_it.py#L174

Jan 25 '24 11:01 snowyrain

可以看看论文里videochat2 three-stage训练pipeline哈，这个instruction是在stage3时插入到QFormer中，辅助QFormer更好地获取所需要的上下文信息，从而提升LLM回复的效果

Jan 26 '24 08:01 Andy1621

我想请教下，为什么在处理数据时，instruction后面要添加第一个问题的question部分，即qa[0]["q"]。只使用instruction本身不行吗？
详见代码it_dataset.py的101-102行，谢谢！

Feb 21 '24 03:02 LiJiaqi96

这个加不加都可以的，我们实验里加上效果会略好些

Feb 21 '24 04:02 Andy1621

@Andy1621 hi, 但是我看demo里面，instruction是使用的通用的watch the video and answer the question. 为啥不让用户输入instruction呢？效果差异大吗？

Feb 21 '24 09:02 dragen1860

可以自己做实验试试区别哈，当时做demo随意指定了一个instruction~

Feb 21 '24 16:02 Andy1621