提取留言语义上为何使用各个词向量的均值而不用[CLS]token？

Open Ponytai1j opened this issue 3 years ago • 1 comments

在提取留言语义上我看见您通过average over all tokens 来获得一个768维的vector。我想问的问题是：经过bert，为什么您不使用[CLS]token来代表语义然后再聚类，而是使用取平均呢？

Apr 25 '22 12:04 Ponytai1j

在提取留言语义上我看见您通过average over all tokens 来获得一个768维的vector。我想问的问题是：经过bert，为什么您不使用[CLS]token来代表语义然后再聚类，而是使用取平均呢？

各个token取平均，或者直接取[CLS]代表整个文本的语义，都有一定的道理。另外有前人的实验显示，cls的emebdding效果，并不比token向量取平均的效果更好：https://www.zhihu.com/question/354129879/answer/886821182 欢迎分享您的实验结果并探讨^_^

May 07 '22 05:05 JiangYanting