刘雄斌
刘雄斌
兄dai,这个项目用了这么久了,有没有出现过什么问题?
兄dai,这个项目用了这么久了,有没有出现过什么问题?
分析代码,input_ids 应该是 ids,因为 input_ids 是 list,ids 才是 input_ids 转化后的 numpy 对象,有 .shape 方法
还有一处错误,dataset.py 的 215 行:message_ids = tokenizer.encode(message)[1:],这里截断的第一个元素可能是 image_start_token,导致第 178 行 if len(image_start_tokens) != len(image_end_tokens) 判断 image start token 和 image end tokens 数量时失败,因为 image_start_tokens 刚好被被截断了,长度少了一个