inahero
inahero
不一致好像是smart的特性导致的, 合并量词导致: 输入: 7号电池 ik_max_word:7|号|电池 ik_smart:7号|电池 消除歧义导致: 输入:美国力特 ik_max_word:美国|国力|特 ik_smart:美|国力|特
在ik_max_word的分词结果任意组合不能拼接出原始词的情况下,是ik_smart的分词结果不包含于ik_max_word的分词结果的原因之一
好像老的版本的ik_max_word是能把单字给分出来的
> > 在ik_max_word的分词结果任意组合不能拼接出原始词的情况下,是ik_smart的分词结果不包含于ik_max_word的分词结果的原因之一 > > 那这个有参数可以关吗? 我后来是把extra_single_word_full.dic加载进来了,这样子对汉字是可以保证ik_smart是ik_max_word的子集
不过还有数词合并的搜不到
// 加载语料库 Learn lean = new Learn() ; lean.learnFile(sportCorpusFile) ; // 生成 model/vector.mod 文件 lean.saveModel(new File("model/vector.mod")) ;
他最前面那段代码是生成语料库的,如果是直接用他提供的语料库,可以把sportCorpusFile指向那个语料库然后直接做分词训练