Research
Research copied to clipboard
关于ACL2020-GraphSum的一些疑问
您好~看见论文中提到可以用预训练的模型去代替transformer encoder部分对输入的长文本进行字符级别的encoding,通过分别对每个段落进行编码而使得模型可以处理超过512长度的文本输入,实验部分的结果也验证了预训练roberta模型的有效性。
但是按照下图文中所提的格式化输入文档的方式,这个输入还是需要截断到512个字符,不知道是不是自己的理解有偏差,但没有找到相关的代码,或者这块处理的时候是有一些具体细节,作者可以解答一下吗?

感谢!
引入预训练有两种方式:(1)每个段落单独用RoBERTa编码;(2)所有段落按论文中所示拼接成序列,长度可以放缩,不用截断512,position embedding也需要放缩,可参考https://github.com/nlpyang/PreSumm/blob/master/src/models/model_builder.py#L200 论文中是采用第(2)种方式的结果,第一种方式也可以,结果比较接近。