yhd-123 comments

Results 3 comments of


                                            yhd-123

OK！Thanks!

因为音频特征是用VGGISH提取的，视频特征是用I3D提取的，所以导致相同的视频提取的音频特征和视频特征的序列长度不一致。那将所有模态的序列长度都压缩为1，平均或者卷积之类的都行，然后对比学习用InfoNCE或者其他方式，不使用需要序列的CPC，语义对齐效果是不是差不多

好的，明白了，谢谢！