LoveCV comments

Results 6 comments of


                                            LoveCV

关于论文细节的问题

> > 同问，请问楼上搞明白了吗？ > > 并没有，论文中SP模块这块介绍的太少。同学，要不加个QQ一起讨论一下，623610394 不好意思，qq已经不用了。可以参考问题“关于SP的代码实现问题 #68”[https://github.com/AbnerHqC/GaitSet/issues/68](url)

> Hello~~抱歉论文因为篇幅问题没有详细讨论。SP中的max，median，mean都是应用在帧维度的，也就是n。具体实现可以参考gaitset.py中的frame_max。这个函数中的`if...else...`是为了兼容test phase中不同样本帧数不同的情况，所以逻辑上就是`return torch.max(x, 1)`。非常感谢回复！！！请教另一个关于parameter sharing的一些问题：文章使用parameter sharing是为了减少参数，请问codes中哪里是关于parameter sharing的代码？期待回复，谢谢！

关于CPC

你好！请教如下几个问题： 1）请问使用cross-CPC实现从模态A预测模态B，是在VQ之前还是之后？从论文的Fig.2中看，是先Cross-CPC，然后才是Multi-Modal VQ；但是从代码来看，Encoder的输出好像是已经对fetures进行了VQ

关于CPC

> > 你好！请教如下几个问题： 1）请问使用cross-CPC实现从模态A预测模态B，是在VQ之前还是之后？从论文的Fig.2中看，是先Cross-CPC，然后才是Multi-Modal VQ；但是从代码来看，Encoder的输出好像是已经对fetures进行了VQ > > 你好，论文里的Fig.2是一个思路图，不是对代码的完整复述。从代码的实现上，我们是先进行了VQ再进行Cross-CPC，参与Cross-CPC的并不是vq，而且semantic_result，所以vq并不会影响Cross-CPC，具体的代码你可以参考https://github.com/haihuangcode/CMG/blob/master/code/src/pretrain.py 的597-613行。谢谢您的回复。又重新看了代码，有如下问题，请帮忙分析下： 1）通过CLUB-based MI Minization进行feature disentanglement时，在mi_first_forward()中，使用的是semantic results的VQ后的特征与encoder_results，为什么不是semantic_results与encoder_results？此外，为什么将输入的results均detach()，这样岂不是不更新所有对应的encoders？那计算loss有什么用处呢？如何实现disentanglement？mi_first_forward()的作用是什么？同时，mi_second_forward()中的audio_class, video_class, text_class为什么没有加在总loss中进行backward？ 2）最终的unified codebook应该是融合所有模态特征后的codebook吧？而非每种模态都有自己对应的codebook？ 3）论文framework中的Multi-modal Vector Quantization模块是否对应着Multi-modal Exponential Moving Average （MM-EMA），实现两个模态的vq的对齐？MM-EMA的输出是一个vq feature还是两个或三个vq features？从论文的“Given a code...

关于CPC

> > > > 你好！请教如下几个问题： 1）请问使用cross-CPC实现从模态A预测模态B，是在VQ之前还是之后？从论文的Fig.2中看，是先Cross-CPC，然后才是Multi-Modal VQ；但是从代码来看，Encoder的输出好像是已经对fetures进行了VQ > > > > > > > > > 你好，论文里的Fig.2是一个思路图，不是对代码的完整复述。从代码的实现上，我们是先进行了VQ再进行Cross-CPC，参与Cross-CPC的并不是vq，而且semantic_result，所以vq并不会影响Cross-CPC，具体的代码你可以参考https://github.com/haihuangcode/CMG/blob/master/code/src/pretrain.py 的597-613行。 > > > > > > 1）你好！意思是Encoder编码后既输出了semantic_result，也输出了vq。semantic_result输入到Cross-CPC进行基于时序的跨模态预测，vq用于更新每个模态对应的codebook，这样理解对吗？ 2）最终的unified codebook是所有模态融合后的codebook，还是每种模态都有自己对应的codebook？ 3）论文framework中的Multi-modal Vector Quantization模块是否对应着Multi-modal...