Rongyuan Wu

Results 50 comments of Rongyuan Wu

Hello, you can try fp16 for training

![image](https://github.com/IceClear/StableSR/assets/111725164/2b3173b2-a8bf-4de4-9a40-65329e8a6244) The left is the input, and the right is the sr results. python scripts/sr_val_ddpm_text_T_vqganfin_oldcanvas_tile.py \ --precision full \ --dec_w 0.5 \

> Hi. The original resolution of this image is 352x224. I tested on 4x and did not find anything wrong. can you provide the original LR image?

> Thanks for your brilliant work!!! I have some questions for more details. Are the weights of "vqgan_cfw_00011.ckpt" the same as the weight of encoder-decoder on "v2-1_512-nonema-pruned.ckpt". If it is,...

这是一个很好的问题。 Real-SR领域目前的sota模型大部分是基于预训练扩散模型,因为它是在十亿级别图文数据对上训练出的生成模型,具有很强的图像先验,这类方法相比于之前的方案能做到很惊艳的效果,因此从效果迭代方面来说是非常有意义的。 但预训练扩散模型的参数量和计算量都十分庞大,像SeeSR这类方法的计算代价相对于bsrgan,realesrgan等显得很大。 考虑到实际落地部署需求,轻量化基于扩散模型的超分模型是目前社区发展较快的方向之一,如果你感兴趣可以了解一下。

> > 这是一个很好的问题。 > > Real-SR领域目前的sota模型大部分是基于预训练扩散模型,因为它是在十亿级别图文数据对上训练出的生成模型,具有很强的图像先验,这类方法相比于之前的方案能做到很惊艳的效果,因此从效果迭代方面来说是非常有意义的。 > > 但预训练扩散模型的参数量和计算量都十分庞大,像SeeSR这类方法的计算代价相对于bsrgan,realesrgan等显得很大。 > > 考虑到实际落地部署需求,轻量化基于扩散模型的超分模型是目前社区发展较快的方向之一,如果你感兴趣可以了解一下。 > > 请问可以推荐一些轻量化模型的相关工作吗? 基础模型目前来看很难动,因此一些工作都是从减少推理步数来加速的。可以参考我们最近的工作[OSEDiff](https://arxiv.org/pdf/2406.08177),一步推理可以比肩SeeSR 50步的效果。

你好,DAPE是在coco数据集上训练的,因为它的数据类别比较丰富。

SeeSR相对第一版PASD的主要改进: (1)使用tag风格的text prompt,能高效地激发SD先验对local object的生成能力。 (2)degradation-aware text prompt提取器。 (3)将LR latent引入diffusion起点来提升结果稳定性。

你好,可以给一下你的训练设置、具体测试的iteration和模型表现吗?

> > 你好,可以给一下你的训练设置、具体测试的iteration和模型表现吗? > > 你好,训练设置如下 > > CUDA_VISIBLE_DEVICES="0,1,2,3" accelerate launch --main_process_port=9999 train_seesr.py --pretrained_model_name_or_path="preset/models/stable-diffusion-2-base" --ram_ft_path 'preset/models/DAPE.pth' --enable_xformers_memory_efficient_attention --mixed_precision="fp16" --resolution=512 --learning_rate=5e-5 --train_batch_size=3 --gradient_accumulation_steps=2 --null_text_ratio=0.5 --dataloader_num_workers=2 > > DAPE使用的是提供的模型文件 > > 使用的数据集是文章中的DIV2K,...