CHENG-DE FAN comments

Results 24 comments of


                                            CHENG-DE FAN

How to visualize 2D oriented disks

不好意思可以再請問一下0.5半徑內是什麼意思嗎，因為每個gaussian的大小都不一樣，0.5半徑應該不是指gaussian的軸長

Backward flow

Can I reverse the event timestamp and the polarity to obtain the forward flow?

finetune CogVideoX frames

不好意思我想再問一下，我在I2V model的 code 裡看到image 好像是vae encode後concat在video latent 的channel dimension 上，可以問一下為什麼你說那個 1 是因为第一帧要么是图（来自视频第一帧复制得来）或者空白的噪声（T2V）嗎，因為好像concat是在channel dimension 上，好像跟frames數沒什麼關係嗎

可是按照train code的話，如果是I2V，我準備8N长度的视频，vae 應該是 encode 8N frames 成video latent，然後vae會在encode 视频第一帧 image 成 image latent，並且padding image latent 的latent frames數跟video latent的frames數相同，如下code ``` image_latents = image_latents.permute(0, 2, 1, 3, 4) # [B, F, C,...

finetune CogVideoX frames

請問如果training frames數是8N的話例如48 frames不是就不需要複製第一個latent了嗎，為什麼還要用8n+1的frames去train，然後在複製第一個latent 而且你的code中有下面這段 ``` sample_frames = self.state.train_frames - 1 if self.args.model_type == "i2v": self.dataset = I2VDatasetWithResize( **(self.args.model_dump()), device=self.accelerator.device, max_num_frames=sample_frames, height=self.state.train_height, width=self.state.train_width, trainer=self, ) ``` self.state.train_frames=49 sample_frames=48 這樣看起training時我們要準備的video 長度還是準備...

finetune CogVideoX frames

我目前用cli_demo.py 設num_frames=49 inference出來還是49張frames 好像不像你說的解码出来是8N frames (例如48 frames) 想再請問一下如果以 I2V model 的inference情況來說，有一張image 當作input condition 時，inference 時出來的video 會包含input的那張image嗎，還是只包含input image 下個timestep 之後的frames呢再請問一下finetune的時候，是建議不要用main branch 改用CogvideoX_dev branch的code嗎

finetune CogVideoX frames

了解，所以inference出來的video的第一個frame是經過VAE重建的condition image，那第二個frame就是condition image的下個timestep對嗎

finetune CogVideoX frames

有，謝謝，[zRzRzRzRzRzRzR](https://github.com/zRzRzRzRzRzRzR) 回我後我已經看過新的code了，我只是想再確認一下我上面提到的問題，也就是 inference出來的video的第一個frame是經過VAE重建的condition image，那第二個frame就是condition image的下個timestep對嗎 > 这已经是老的代码了，建议看一下新的代码 #654 的 [i2v_dataset](https://github.com/THUDM/CogVideo/pull/654/files#diff-97324c19de2f6786b67869270d248eeef65fa5cd5d101767aa45b3efbefb1b0b) 和 [trainer](https://github.com/THUDM/CogVideo/pull/654/files#diff-43b8e64ed8482410b9c41b69ae1393735c29bc3575d5dc0dfb933ec8b9941a36R173)。 > > 对于I2V来说用户必须指定8N + 1，然后视频直接采样8N + 1（老的代码是用户输入8N+1，在视频里采样8N，然后把图片复制到第一帧，从而变成8N + 1帧）。 > > 这里以81帧为例：vae decode时下采样四倍得到21个latent，由于CogvideoX1.5的patch_t = 2，因此要让latent数目满足2的倍数，所以后面会给第一个latent复制一次，变成22个latent然后训练。 > > 推理也是同理，用户要跟训练时一样输入8N...

finetune CogVideoX frames

了解謝謝，我只是想確認最後生成的video 的第二個frame就是否就是condition image的下個timestep

Question about Densification

非常感謝您的解答，想再請問一下你們有試過flow supervision或depth surpervison嗎? 因為我目測試起來發現效果並沒有改善，所以我正在想會不會是densification的原因。