text2vec icon indicating copy to clipboard operation
text2vec copied to clipboard

text2vec, text to vector. 文本向量表征工具,把文本转化为向量矩阵,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT等文本表征、文本相似度计算模型,开箱即用。

Results 19 text2vec issues
Sort by recently updated
recently updated
newest added

当前encoder_type为first-last-avg和last-avg时候,都是通过torch.avg_pool1d(last.transpose(1, 2), kernel_size=seq_length).squeeze(-1)实现的,seq_length不是真实长度,可能被补全。是不是应该考虑通过类似于mean的形式实现,统计有效文本长度?

question

### Describe the Question Please provide a clear and concise description of what the question is. ### Describe your attempts - [ ] I walked through the tutorials - [...

question

w2v_model = Word2Vec("w2v-light-tencent-chinese") compute_emb(w2v_model) 看了下代码,编码的时候会把句子分成一个一个的字符,分别计算字向量得到句子向量,是不是少了分词步骤 另外,衡量word2vec模型向量距离的方法是不是用欧式距离更好?

question

### Describe the Question 请问模型评估部分(evaluatioin)的各个模型在各个数据集上的evaluation的那些评估数字(score)是如何计算的? ### Describe your attempts - [ ] I walked through the tutorials - [ ] I checked the documentation - [ ] I checked to...

question
wontfix

readme里的测评结果还可以提高吗?

question
wontfix

### Describe the Question Please provide a clear and concise description of what the question is. 您好,请问您在训练和评估 微调版BGE 时所用的中文STS-B数据集,大概有多少条数据(三元组)呢?

question
wontfix

您好,我看您的文档中支持模型的微调,可否对于shibing624/text2vec-base-multilingual模型举一个具体的例子,比如如何feed数据等

question
wontfix

首先, Nice work! 我看评估的代码tests/model_spearman.py中, 在整个数据集上对pred和labels运行了spearmanr(x, y)方法, 数据集中的标签为1-5之间的整数, 而pred的余弦相似度为-1-1之间的连续浮点数. 由于spearman是按照秩次评估相关性的, 数据集中大量重复的label会不会导致大量等次的秩, 影响相关性的评估准确性? 一个想法, 是不是可以吧计算spearman相关性的步骤拆分成若干个小组, 每个小组里放6个label不相同的结果, 再与预测值计算相关度, 这样更能凸显出文本相似度之间的对比关系. 谢谢作者

wontfix

模型中max_seq_length指的应该是模型能处理的最大token数,我想问下,这个模型中的token跟汉字字符是一个大概什么样比例的换算关系,我在一个博客上看到在text2vec上是1token约等于1.5个汉字,请问这个结论对吗?

question