Lee comments

Results 6 comments of

Lee

设置了search_analyzer 为ik_smart，但某些情况不想拆拆分词

采用上层再分词的方式，使用短语匹配进行检索

6.7.2，”黎明前的黑暗“ 分词报错 startOffset must be non-negative, and endOffset must be >= startOffset

这个问题，是因为后面的词的startoffset大于前面的startoffset导致的。只需要解决分词结果中每个词的startoffset按照顺序产生就没问题了，一般是分词器的bug。

数字字母重复的情况

看看底层数据索引分词结果，应该是没有单独切分“c”

禁用词

删除对应词，刷新数据

ik_max_word 的分词能否包含ik_smart的分词

自定义词，否者不能；因为ik_max_word和ik_smart分词方式不同

空字符串和其他字符串的相似度都有0.5以上？

> > > ``` > > > # -*- coding: utf-8 -*- > > > from FlagEmbedding import FlagModel > > > model = FlagModel('/xxx/bge-m3', > > > query_instruction_for_retrieval="答案比较", >...