PaddleVideo 特征提取模型如何使用

您好，我们用足球数据训练了一个(2+1)D残差网络的分类模型，输入帧数为16，最后模型输出的特征图大小为512916，请问这个特征图如何转换为一个BMN网络训练需要的二维矩阵了。

Jan 27 '21 12:01 YongdongTan

您好，我们用足球数据训练了一个(2+1)D残差网络的分类模型，输入帧数为16，最后模型输出的特征图大小为2x512x9x16，请问这个特征图如何转换为一个BMN网络训练需要的二维矩阵了。

Jan 27 '21 12:01 YongdongTan

@YongdongTan 512916是整个视频特征？视频的时长是多少？

Jan 28 '21 11:01 wgh1989

@wgh1989 我输入模型的视频帧数是16帧，每帧图像大小为144x256，模型输出的特征图大小为2x512x9x16。请问这个如何转换为16个代表每一帧的特征图？

Jan 28 '21 12:01 YongdongTan

@wgh1989 还是我应该修改我的特征提取模型，不进行时间维度上的下采样，使模型输出的特征图大小为16x512x9x16

Jan 28 '21 12:01 YongdongTan

时间维度上不能进行下采样，因为BMN的输入是每一帧的特征

Mar 12 '21 09:03 wgh1989