ChenWang
Results
2
comments of
ChenWang
截断是不是应该把后面pad_size个词再作为新的数据加到contents中?
> 感觉就是直接截断了,超过长度的数据不要了。我是这么理解的,像textCNN只能接受固定长度的文本分类,基于RNN的虽然可以接受不固定长度的,但是因为要批量训练,所以需要长度同一。 在这个数据集里,每个句子的长度在30以下,所以pan_size设置成32是没有问题的,但是如果句子长度是100甚至更多的话,只截取32个,是肯定不对的,截断后面的字数不够就用PAD补全,或者剩余字数过少可以舍去。