THULAC-Python
THULAC-Python copied to clipboard
About mark `id` and the result of `demo`.
我觀察到使用Demo [http://thulac.thunlp.org/demo] 對“你好”進行分詞
會解釋為:
你_r 好_a
而使用
thulac.thulac().cut("你好", text=True)
會變成
你好_id
這裡有幾個問題:
-
id是什麼 - 為什麼Demo的結果和實際結果不同呢?
您好,我们demo网站使用的是model_3更复杂模型,并且在训练语料中对“你好“有了一个比较细致的标注,而通过pip下载的thulac使用的lite版本的模型,所以在训练语料中“你好”被标注为了俗语 “id”和“i”都是表示俗语、习语,我们会尽快更新ReadMe中的定义
好的,谢谢