text2vec
text2vec copied to clipboard
词向量模型使用的时候是不是需要先分词
w2v_model = Word2Vec("w2v-light-tencent-chinese")
compute_emb(w2v_model)
看了下代码,编码的时候会把句子分成一个一个的字符,分别计算字向量得到句子向量,是不是少了分词步骤 另外,衡量word2vec模型向量距离的方法是不是用欧式距离更好?
得看训练方式,训练是分词的预测就分词,训练切字的就预测切字。
哪种距离更好,可以在自有数据集比较。
我比较的是中文STS-B数据集,cos余弦好点。