PaddleVideo
PaddleVideo copied to clipboard
特征提取模型如何使用
您好,我们用足球数据训练了一个(2+1)D残差网络的分类模型,输入帧数为16,最后模型输出的特征图大小为512916,请问这个特征图如何转换为一个BMN网络训练需要的二维矩阵了。
您好,我们用足球数据训练了一个(2+1)D残差网络的分类模型,输入帧数为16,最后模型输出的特征图大小为2x512x9x16,请问这个特征图如何转换为一个BMN网络训练需要的二维矩阵了。
@YongdongTan 512916是整个视频特征?视频的时长是多少?
@wgh1989 我输入模型的视频帧数是16帧,每帧图像大小为144x256,模型输出的特征图大小为2x512x9x16。请问这个如何转换为16个代表每一帧的特征图?
@wgh1989 还是我应该修改我的特征提取模型,不进行时间维度上的下采样,使模型输出的特征图大小为16x512x9x16
时间维度上不能进行下采样,因为BMN的输入是每一帧的特征