CHENG-DE FAN
CHENG-DE FAN
不好意思可以再請問一下0.5半徑內是什麼意思嗎,因為每個gaussian的大小都不一樣,0.5半徑應該不是指gaussian的軸長
Can I reverse the event timestamp and the polarity to obtain the forward flow?
不好意思我想再問一下,我在I2V model的 code 裡看到image 好像是vae encode後concat在video latent 的channel dimension 上,可以問一下為什麼你說那個 1 是因为第一帧要么是图(来自视频第一帧复制得来) 或者空白的噪声(T2V)嗎,因為好像concat是在channel dimension 上,好像跟frames數沒什麼關係嗎
可是按照train code的話,如果是I2V,我準備8N长度的视频,vae 應該是 encode 8N frames 成video latent,然後vae會在encode 视频第一帧 image 成 image latent,並且padding image latent 的latent frames數跟video latent的frames數相同,如下code ``` image_latents = image_latents.permute(0, 2, 1, 3, 4) # [B, F, C,...
請問如果training frames數是8N的話例如48 frames不是就不需要複製第一個latent了嗎,為什麼還要用8n+1的frames去train,然後在複製第一個latent 而且你的code中有下面這段 ``` sample_frames = self.state.train_frames - 1 if self.args.model_type == "i2v": self.dataset = I2VDatasetWithResize( **(self.args.model_dump()), device=self.accelerator.device, max_num_frames=sample_frames, height=self.state.train_height, width=self.state.train_width, trainer=self, ) ``` self.state.train_frames=49 sample_frames=48 這樣看起training時 我們要準備的video 長度還是準備...
我目前用cli_demo.py 設num_frames=49 inference出來還是49張frames 好像不像你說的解码出来是8N frames (例如48 frames) 想再請問一下如果以 I2V model 的inference情況來說,有一張image 當作input condition 時,inference 時出來的video 會包含input的那張image嗎,還是只包含input image 下個timestep 之後的frames呢 再請問一下finetune的時候,是建議不要用main branch 改用CogvideoX_dev branch的code嗎
了解,所以inference出來的video的第一個frame是經過VAE重建的condition image,那第二個frame就是condition image的下個timestep對嗎
有,謝謝,[zRzRzRzRzRzRzR](https://github.com/zRzRzRzRzRzRzR) 回我後我已經看過新的code了,我只是想再確認一下我上面提到的問題,也就是 inference出來的video的第一個frame是經過VAE重建的condition image,那第二個frame就是condition image的下個timestep對嗎 > 这已经是老的代码了,建议看一下新的代码 #654 的 [i2v_dataset](https://github.com/THUDM/CogVideo/pull/654/files#diff-97324c19de2f6786b67869270d248eeef65fa5cd5d101767aa45b3efbefb1b0b) 和 [trainer](https://github.com/THUDM/CogVideo/pull/654/files#diff-43b8e64ed8482410b9c41b69ae1393735c29bc3575d5dc0dfb933ec8b9941a36R173)。 > > 对于I2V来说用户必须指定8N + 1,然后视频直接采样8N + 1(老的代码是用户输入8N+1,在视频里采样8N,然后把图片复制到第一帧,从而变成8N + 1帧)。 > > 这里以81帧为例:vae decode时下采样四倍得到21个latent,由于CogvideoX1.5的patch_t = 2,因此要让latent数目满足2的倍数,所以后面会给第一个latent复制一次,变成22个latent然后训练。 > > 推理也是同理,用户要跟训练时一样输入8N...
了解謝謝,我只是想確認最後生成的video 的第二個frame就是否就是condition image的下個timestep
非常感謝您的解答,想再請問一下你們有試過flow supervision或depth surpervison嗎? 因為我目測試起來發現效果並沒有改善,所以我正在想會不會是densification的原因。