yhd-123
Results
3
comments of
yhd-123
OK!Thanks!
因为音频特征是用VGGISH提取的,视频特征是用I3D提取的,所以导致相同的视频提取的音频特征和视频特征的序列长度不一致。那将所有模态的序列长度都压缩为1,平均或者卷积之类的都行,然后对比学习用InfoNCE或者其他方式,不使用需要序列的CPC,语义对齐效果是不是差不多