zhaop-l

Results 18 comments of zhaop-l

If possible please provide a pytorch version of the vision model.

I have encountered the same problem as you. How did you solve it? ![image](https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life/assets/50993924/2e1c99bd-e603-4f4c-8c12-ebbf83f2a9d8)

就是你们目前开源的模型,使用ChineseCLIPTextModel,其效果是不行的,必须要进行finetune吗?

好的,了解了。非常感谢!

> 请问如何设计prompt来对图像进行坐标检测,输出bbox?谢谢 Please provide the bounding box coordinate of the region this sentence describes : people on car.

这个问题是什么原因导致的呢?我看看我这边能不能自己想个其他方法解决。

> > 建议先把所有数据集合起来 > > 请问video和image数据可以合在一起吗 看了一下代码,感觉不同模态的数据最好分开。总之感觉很麻烦。

> > 我的经验是把多模态数据放前面,纯文本数据放在最后面 > > 这个是最后的答案吗,有没有 标准? 最近先把数据处理成tokenized,再训练了

> > > > 我的经验是把多模态数据放前面,纯文本数据放在最后面 > > > > > > > > > 这个是最后的答案吗,有没有 标准? > > > > > > 最近先把数据处理成tokenized,再训练了 > > 请问怎么先处理成tokenized,这个框架不是会自动tokenize吗 就是他那个 `tokenized_path` 参数