VAR 换个角度,ms codebbok是不是也可以等价于另一种latent diffusion?

感谢好文,我在想,以256x256为例,从[1,2,.....,16]的codebook size,在计算的时候也是resize到16计算残差,这种resize之后的信息,是不是也可以等价于latent diffusion?从大小为1的最粗糙的信息开始到16,这不就是一个类似diffusion的coarse to fine的过程吗?

Jun 11 '24 09:06 YilanWang

其实仔细观察扩散模型中的前向加噪过程，和降低分辨率的过程其实是高度一致的。举例来讲，对不同分别率的同一张图片使用扩散模型前向过程加噪，会发现相同 t 的前向加噪下，高分辨率的图片更加容易辨别其中内容，这说明加噪和降低分辨率某种角度来看其实是等价的

从这种角度来看，有望能达到、超过扩散模型的性能，同时由于更容易和 LLM 组合，有望全面取代扩散模型

Aug 19 '24 08:08 HonorWithPupils

之前的SD也只做到了64x64的latent特征，再下采样分辨率，扩散生成效果就不好了(虽然不知道为什么)，不过这篇工作看起来又可以了。降低分辨率和加噪感觉还是不一样吧，下采样更像是平滑或者模糊，图像信息还在，只是没了高频信息。另外还有个问题，[1,2,.....,16]只有固定的分辨率，如何向GPT那样运用scaling law呢？

Dec 06 '24 04:12 ansj11

其实我的好奇是，var成为【ar】模型的本质是因为，当预测r_k分辨率的时候,他用的是r_1,r_2,...,r_k-1. 但是如果我们也依然设计一个next scale pred,但是预测r_k只使用r_k-1,那这样就变成马尔可夫过程,也就是diffusion的底层原理了.但是作者并没有做相应的实验来证明一下这样做的效果如何, 故有此好奇

Dec 20 '24 10:12 YilanWang

之前的SD也只做到了64x64的latent特征，再下采样分辨率，扩散生成效果就不好了(虽然不知道为什么)，不过这篇工作看起来又可以了。降低分辨率和加噪感觉还是不一样吧，下采样更像是平滑或者模糊，图像信息还在，只是没了高频信息。另外还有个问题，[1,2,.....,16]只有固定的分辨率，如何向GPT那样运用scaling law呢？

如果不追究高斯分布的噪声等等这些"严密"的数学逻辑,感觉下采样,高斯噪声,blur compression这些其实都差不多...基本就是如何去做"无中生有".

Dec 20 '24 10:12 YilanWang

@YilanWang coarse to fine 是否具有更好的因果关系尚且存疑，就如在openreview中作者所说：

We do agree with you that "coarse-to-fine scaled images may indeed not strictly have causal dependency". If they don't, the whole generation process is more like a series of super-resolutions; but if they do, it's much more similar to the way human paintings work: first the whole, then the details, with each step being a refinement to all the past steps (due to the residual).

我认为需要更“精密”的潜空间去验证这种因果关系，将VQVAE的作用降低

Dec 31 '24 08:12 AlbertLin0