Chinese-Text-Classification-Pytorch icon indicating copy to clipboard operation
Chinese-Text-Classification-Pytorch copied to clipboard

关于load_dataset(path, pad_size)

Open mchenwang opened this issue 5 years ago • 3 comments

if pad_size:
  if len(token) < pad_size:
      token.extend([PAD] * (pad_size - len(token)))
  else:
     token = token[:pad_size]
      seq_len = pad_size

如果文本长度超过pad_szie,这里token=token[:pad_size],那pan_size之后的文本是不是没用上,对这里不是很懂

mchenwang avatar May 08 '20 10:05 mchenwang

截断是不是应该把后面pad_size个词再作为新的数据加到contents中?

mchenwang avatar May 08 '20 13:05 mchenwang

感觉就是直接截断了,超过长度的数据不要了。我是这么理解的,像textCNN只能接受固定长度的文本分类,基于RNN的虽然可以接受不固定长度的,但是因为要批量训练,所以需要长度同一。

li199603 avatar May 10 '20 04:05 li199603

感觉就是直接截断了,超过长度的数据不要了。我是这么理解的,像textCNN只能接受固定长度的文本分类,基于RNN的虽然可以接受不固定长度的,但是因为要批量训练,所以需要长度同一。

在这个数据集里,每个句子的长度在30以下,所以pan_size设置成32是没有问题的,但是如果句子长度是100甚至更多的话,只截取32个,是肯定不对的,截断后面的字数不够就用PAD补全,或者剩余字数过少可以舍去。

mchenwang avatar May 10 '20 04:05 mchenwang