Taidi_2020_Data_Ming_C icon indicating copy to clipboard operation
Taidi_2020_Data_Ming_C copied to clipboard

提取留言语义上为何使用各个词向量的均值而不用[CLS]token?

Open Ponytai1j opened this issue 3 years ago • 1 comments

在提取留言语义上我看见您通过average over all tokens 来获得一个768维的vector。 我想问的问题是:经过bert,为什么您不使用[CLS]token来代表语义然后再聚类,而是使用取平均呢?

Ponytai1j avatar Apr 25 '22 12:04 Ponytai1j

在提取留言语义上我看见您通过average over all tokens 来获得一个768维的vector。 我想问的问题是:经过bert,为什么您不使用[CLS]token来代表语义然后再聚类,而是使用取平均呢?

各个token取平均,或者直接取[CLS]代表整个文本的语义,都有一定的道理。 另外有前人的实验显示,cls的emebdding效果,并不比token向量取平均的效果更好:https://www.zhihu.com/question/354129879/answer/886821182 欢迎分享您的实验结果并探讨^_^

JiangYanting avatar May 07 '22 05:05 JiangYanting