Ask-Anything icon indicating copy to clipboard operation
Ask-Anything copied to clipboard

encode_img中的instruction作用

Open snowyrain opened this issue 2 years ago • 5 comments

video_chat2中的videochat2_it.py代码里的 def encode_img(self, image, instruction)中的instruction的作用具体是什么? https://github.com/OpenGVLab/Ask-Anything/blob/main/video_chat2/models/videochat2_it.py#L174

snowyrain avatar Jan 25 '24 11:01 snowyrain

可以看看论文里videochat2 three-stage训练pipeline哈,这个instruction是在stage3时插入到QFormer中,辅助QFormer更好地获取所需要的上下文信息,从而提升LLM回复的效果

Andy1621 avatar Jan 26 '24 08:01 Andy1621

我想请教下,为什么在处理数据时,instruction后面要添加第一个问题的question部分,即qa[0]["q"]。只使用instruction本身不行吗?
详见代码it_dataset.py的101-102行,谢谢!

LiJiaqi96 avatar Feb 21 '24 03:02 LiJiaqi96

这个加不加都可以的,我们实验里加上效果会略好些

Andy1621 avatar Feb 21 '24 04:02 Andy1621

@Andy1621 hi, 但是我看demo里面,instruction是使用的通用的watch the video and answer the question. 为啥不让用户输入instruction呢? 效果差异大吗?

dragen1860 avatar Feb 21 '24 09:02 dragen1860

可以自己做实验试试区别哈,当时做demo随意指定了一个instruction~

Andy1621 avatar Feb 21 '24 16:02 Andy1621