zhaop-l comments

Results 18 comments of


                                            zhaop-l

Pytorch version of the vision model

If possible please provide a pytorch version of the vision model.

Face enhancement erroring result

I have encountered the same problem as you. How did you solve it? ![image](https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life/assets/50993924/2e1c99bd-e603-4f4c-8c12-ebbf83f2a9d8)

是否可以作为stable diffusion的text encoder?

就是你们目前开源的模型，使用ChineseCLIPTextModel，其效果是不行的，必须要进行finetune吗？

是否可以作为stable diffusion的text encoder?

好的，了解了。非常感谢！

对图像进行坐标检测，生成的bbox是resize成正方形之后的值吗？

> 请问如何设计prompt来对图像进行坐标检测，输出bbox？谢谢 Please provide the bounding box coordinate of the region this sentence describes : people on car.

PaddleMIX 快乐开源活动 (2025 H1)

【报名】：4

多模态数据集多的时候，数据加载失败

这个问题是什么原因导致的呢？我看看我这边能不能自己想个其他方法解决。

多模态数据集多的时候，数据加载失败

> > 建议先把所有数据集合起来 > > 请问video和image数据可以合在一起吗看了一下代码，感觉不同模态的数据最好分开。总之感觉很麻烦。

多模态数据集多的时候，数据加载失败

> > 我的经验是把多模态数据放前面，纯文本数据放在最后面 > > 这个是最后的答案吗，有没有标准？最近先把数据处理成tokenized，再训练了

多模态数据集多的时候，数据加载失败

> > > > 我的经验是把多模态数据放前面，纯文本数据放在最后面 > > > > > > > > > 这个是最后的答案吗，有没有标准？ > > > > > > 最近先把数据处理成tokenized，再训练了 > > 请问怎么先处理成tokenized，这个框架不是会自动tokenize吗就是他那个 `tokenized_path` 参数