词向量模型使用的时候是不是需要先分词

Open lushizijizoude opened this issue 3 years ago • 1 comments

w2v_model = Word2Vec("w2v-light-tencent-chinese")
compute_emb(w2v_model)

看了下代码，编码的时候会把句子分成一个一个的字符，分别计算字向量得到句子向量，是不是少了分词步骤另外，衡量word2vec模型向量距离的方法是不是用欧式距离更好？

Aug 22 '22 09:08 lushizijizoude

得看训练方式，训练是分词的预测就分词，训练切字的就预测切字。

哪种距离更好，可以在自有数据集比较。

我比较的是中文STS-B数据集，cos余弦好点。

Aug 23 '22 12:08 shibing624