CaicaiJason
CaicaiJason
 我也碰到一样的问题了,请问解决了吗?
> >  我也碰到一样的问题了,请问解决了吗? > > 这是啥数据集? 自己生成的一些数据
改一下dataset的方法,先把索引读进去,然后每个batch再读图片 原来给的方法一口气把数据集全读到内存里了,直接oom ``` class FewShotDataset(Dataset): def __init__(self, path, processor, tokenizer, args): self.max_seq_length = args.max_source_length + args.max_target_length with open(path, 'r', encoding='utf-8') as f: self.data = json.load(f) self.processor = processor self.tokenizer =...
 多轮对话的数据格式是什么样的?
> 你把prompt改成"这张图片里有苹果吗?\n答:有。\n问:有几个苹果?" 把label改成"有2个。" 就相当于训练了多轮对话的第二轮 明白了,所以多轮对话就是把历史的对话变成Prompt,下一轮回答变成label去训练,感谢大佬~~
但是还是有个疑问,如果是这样的形式,那么对话轮次一多,token的数量不断累加了,感觉效率上是不是太低了。 我看到的例如llava的多轮对话数据集,其实是这样的形式,是不是更合理一些?  > 你把prompt改成"这张图片里有苹果吗?\n答:有。\n问:有几个苹果?" 把label改成"有2个。" 就相当于训练了多轮对话的第二轮 但是还是有个疑问,如果是这样的形式,那么对话轮次一多,token的数量不断累加了,感觉效率上是不是太低了。 我看到的例如llava的多轮对话数据集,其实是这样的形式,是不是更合理一些? 
python demo_audiovideo.py --cfg-path eval_configs/video_llama_eval_withaudio.yaml --model_type llama_v2 --gpu-id 0 运行demo的时候失败了,配置是下面这样的,哪里出问题了吗? llama_model: "/group/30155/jasoncjxcai/Video-LLaMA/Video-LLaMA-2-7B-Finetuned/llama-2-7b-chat-hf" imagebind_ckpt_path: "/group/30155/jasoncjxcai/Video-LLaMA/Video-LLaMA-2-7B-Finetuned/imagebind_huge.pth" ckpt: '/group/30155/jasoncjxcai/Video-LLaMA/Video-LLaMA-2-7B-Finetuned/VL_LLaMA_2_7B_Finetuned.pth' # you can use our pretrained ckpt from https://huggingface.co/DAMO-NLP-SG/Video-LLaMA-2-13B-Pretrained/ ckpt_2: '/group/30155/jasoncjxcai/Video-LLaMA/Video-LLaMA-2-7B-Finetuned/AL_LLaMA_2_7B_Finetuned.pth' 
大佬,有没有呢,求share一个
> Hi, how can I make the inference code to evaluate videos in batch? I naively concatenated the tensor in dimension 0 and get this error. > >  >...