Results 6 comments of LoveCV

同问,请问楼上搞明白了吗?

> > 同问,请问楼上搞明白了吗? > > 并没有,论文中SP模块这块介绍的太少。同学,要不加个QQ一起讨论一下,623610394 不好意思,qq已经不用了。可以参考问题“关于SP的代码实现问题 #68”[https://github.com/AbnerHqC/GaitSet/issues/68](url)

> Hello~~抱歉论文因为篇幅问题没有详细讨论。SP中的max,median,mean都是应用在帧维度的,也就是n。具体实现可以参考gaitset.py中的frame_max。这个函数中的`if...else...`是为了兼容test phase中不同样本帧数不同的情况,所以逻辑上就是`return torch.max(x, 1)`。 非常感谢回复!!!请教另一个关于parameter sharing的一些问题: 文章使用parameter sharing是为了减少参数,请问codes中哪里是关于parameter sharing的代码?期待回复,谢谢!

你好!请教如下几个问题: 1)请问使用cross-CPC实现从模态A预测模态B,是在VQ之前还是之后?从论文的Fig.2中看,是先Cross-CPC,然后才是Multi-Modal VQ;但是从代码来看,Encoder的输出好像是已经对fetures进行了VQ

> > 你好!请教如下几个问题: 1)请问使用cross-CPC实现从模态A预测模态B,是在VQ之前还是之后?从论文的Fig.2中看,是先Cross-CPC,然后才是Multi-Modal VQ;但是从代码来看,Encoder的输出好像是已经对fetures进行了VQ > > 你好,论文里的Fig.2是一个思路图,不是对代码的完整复述。从代码的实现上,我们是先进行了VQ再进行Cross-CPC,参与Cross-CPC的并不是vq,而且semantic_result,所以vq并不会影响Cross-CPC,具体的代码你可以参考https://github.com/haihuangcode/CMG/blob/master/code/src/pretrain.py 的597-613行。 谢谢您的回复。又重新看了代码,有如下问题,请帮忙分析下: 1)通过CLUB-based MI Minization进行feature disentanglement时,在mi_first_forward()中,使用的是semantic results的VQ后的特征与encoder_results,为什么不是semantic_results与encoder_results?此外,为什么将输入的results均detach(),这样岂不是不更新所有对应的encoders?那计算loss有什么用处呢?如何实现disentanglement?mi_first_forward()的作用是什么?同时,mi_second_forward()中的audio_class, video_class, text_class为什么没有加在总loss中进行backward? 2)最终的unified codebook应该是融合所有模态特征后的codebook吧?而非每种模态都有自己对应的codebook? 3)论文framework中的Multi-modal Vector Quantization模块是否对应着Multi-modal Exponential Moving Average (MM-EMA),实现两个模态的vq的对齐?MM-EMA的输出是一个vq feature还是两个或三个vq features?从论文的“Given a code...

> > > > 你好!请教如下几个问题: 1)请问使用cross-CPC实现从模态A预测模态B,是在VQ之前还是之后?从论文的Fig.2中看,是先Cross-CPC,然后才是Multi-Modal VQ;但是从代码来看,Encoder的输出好像是已经对fetures进行了VQ > > > > > > > > > 你好,论文里的Fig.2是一个思路图,不是对代码的完整复述。从代码的实现上,我们是先进行了VQ再进行Cross-CPC,参与Cross-CPC的并不是vq,而且semantic_result,所以vq并不会影响Cross-CPC,具体的代码你可以参考https://github.com/haihuangcode/CMG/blob/master/code/src/pretrain.py 的597-613行。 > > > > > > 1)你好!意思是Encoder编码后既输出了semantic_result,也输出了vq。semantic_result输入到Cross-CPC进行基于时序的跨模态预测,vq用于更新每个模态对应的codebook,这样理解对吗? 2)最终的unified codebook是所有模态融合后的codebook,还是每种模态都有自己对应的codebook? 3)论文framework中的Multi-modal Vector Quantization模块是否对应着Multi-modal...