text2vec icon indicating copy to clipboard operation
text2vec copied to clipboard

词向量模型使用的时候是不是需要先分词

Open lushizijizoude opened this issue 3 years ago • 1 comments

w2v_model = Word2Vec("w2v-light-tencent-chinese")
compute_emb(w2v_model)

看了下代码,编码的时候会把句子分成一个一个的字符,分别计算字向量得到句子向量,是不是少了分词步骤 另外,衡量word2vec模型向量距离的方法是不是用欧式距离更好?

lushizijizoude avatar Aug 22 '22 09:08 lushizijizoude

得看训练方式,训练是分词的预测就分词,训练切字的就预测切字。

哪种距离更好,可以在自有数据集比较。

我比较的是中文STS-B数据集,cos余弦好点。

shibing624 avatar Aug 23 '22 12:08 shibing624