zhaop-l
zhaop-l
If possible please provide a pytorch version of the vision model.
I have encountered the same problem as you. How did you solve it? 
就是你们目前开源的模型,使用ChineseCLIPTextModel,其效果是不行的,必须要进行finetune吗?
好的,了解了。非常感谢!
> 请问如何设计prompt来对图像进行坐标检测,输出bbox?谢谢 Please provide the bounding box coordinate of the region this sentence describes : people on car.
【报名】:4
这个问题是什么原因导致的呢?我看看我这边能不能自己想个其他方法解决。
> > 建议先把所有数据集合起来 > > 请问video和image数据可以合在一起吗 看了一下代码,感觉不同模态的数据最好分开。总之感觉很麻烦。
> > 我的经验是把多模态数据放前面,纯文本数据放在最后面 > > 这个是最后的答案吗,有没有 标准? 最近先把数据处理成tokenized,再训练了
> > > > 我的经验是把多模态数据放前面,纯文本数据放在最后面 > > > > > > > > > 这个是最后的答案吗,有没有 标准? > > > > > > 最近先把数据处理成tokenized,再训练了 > > 请问怎么先处理成tokenized,这个框架不是会自动tokenize吗 就是他那个 `tokenized_path` 参数