换个角度,ms codebbok是不是也可以等价于另一种latent diffusion?
感谢好文,我在想,以256x256为例,从[1,2,.....,16]的codebook size,在计算的时候也是resize到16计算残差,这种resize之后的信息,是不是也可以等价于latent diffusion?从大小为1的最粗糙的信息开始到16,这不就是一个类似diffusion的coarse to fine的过程吗?
其实仔细观察 扩散模型 中的前向加噪过程,和降低分辨率的过程其实是高度一致的。举例来讲,对不同分别率的同一张图片使用扩散模型前向过程加噪,会发现相同 t 的前向加噪下,高分辨率的图片更加容易辨别其中内容,这说明加噪和降低分辨率某种角度来看其实是等价的
从这种角度来看,有望能达到、超过扩散模型的性能,同时由于更容易和 LLM 组合,有望全面取代扩散模型
之前的SD也只做到了64x64的latent特征,再下采样分辨率,扩散生成效果就不好了(虽然不知道为什么),不过这篇工作看起来又可以了。降低分辨率和加噪感觉还是不一样吧,下采样更像是平滑或者模糊,图像信息还在,只是没了高频信息。另外还有个问题,[1,2,.....,16]只有固定的分辨率,如何向GPT那样运用scaling law呢?
其实我的好奇是,var成为【ar】模型的本质是因为,当预测r_k分辨率的时候,他用的是r_1,r_2,...,r_k-1. 但是如果我们也依然设计一个next scale pred,但是预测r_k只使用r_k-1,那这样就变成马尔可夫过程,也就是diffusion的底层原理了.但是作者并没有做相应的实验来证明一下这样做的效果如何, 故有此好奇
之前的SD也只做到了64x64的latent特征,再下采样分辨率,扩散生成效果就不好了(虽然不知道为什么),不过这篇工作看起来又可以了。降低分辨率和加噪感觉还是不一样吧,下采样更像是平滑或者模糊,图像信息还在,只是没了高频信息。另外还有个问题,[1,2,.....,16]只有固定的分辨率,如何向GPT那样运用scaling law呢?
如果不追究高斯分布的噪声等等这些"严密"的数学逻辑,感觉下采样,高斯噪声,blur compression这些其实都差不多...基本就是如何去做"无中生有".
@YilanWang coarse to fine 是否具有更好的因果关系尚且存疑,就如在openreview中作者所说:
We do agree with you that "coarse-to-fine scaled images may indeed not strictly have causal dependency". If they don't, the whole generation process is more like a series of super-resolutions; but if they do, it's much more similar to the way human paintings work: first the whole, then the details, with each step being a refinement to all the past steps (due to the residual).
我认为需要更“精密”的潜空间去验证这种因果关系,将VQVAE的作用降低