THULAC-Python icon indicating copy to clipboard operation
THULAC-Python copied to clipboard

About mark `id` and the result of `demo`.

Open RyanKung opened this issue 8 years ago • 2 comments

我觀察到使用Demo [http://thulac.thunlp.org/demo] 對“你好”進行分詞 會解釋為: 你_r 好_a

而使用 thulac.thulac().cut("你好", text=True) 會變成 你好_id

這裡有幾個問題:

  1. id是什麼
  2. 為什麼Demo的結果和實際結果不同呢?

RyanKung avatar Apr 28 '17 08:04 RyanKung

您好,我们demo网站使用的是model_3更复杂模型,并且在训练语料中对“你好“有了一个比较细致的标注,而通过pip下载的thulac使用的lite版本的模型,所以在训练语料中“你好”被标注为了俗语 “id”和“i”都是表示俗语、习语,我们会尽快更新ReadMe中的定义

gzp9595 avatar Apr 28 '17 09:04 gzp9595

好的,谢谢

RyanKung avatar May 03 '17 16:05 RyanKung