wordmaker icon indicating copy to clipboard operation
wordmaker copied to clipboard

代码中使用的统计量有哪些?

Open kwinww opened this issue 11 years ago • 5 comments

问题

hi jannson 您在另一个项目的说明中说到该项目用的算法来源于Martrix67的那篇文章,但是在阅读您的代码之后,发现您使用的统计量主要是左右邻接熵, 并未看到您使用凝固度,于是我在此基础上,又添加了凝固度统计量,可以又过滤一些“伪新词”, 但是在有些语料上该工具的新词的发现能力有时候还是不太好,。

所以,请问您的代码中主要都用了哪些统计量? 基于您的经验,如果要进一步优化,您觉得还需要做哪些方向的改进?谢谢!

K

kwinww avatar Jan 28 '15 09:01 kwinww

有点久,我已经不大记得那篇论文的专业术语了。 映像中就两点,每个词的词频,以及左右熵。 如果忽略左右熵,可以认为 “我的 ” 是一个词,因为 "我的“ 这个词出现了很多次,超过了某一个阀值

再加上左右熵,”我的“就不是词,因为它是一个很随机的组合,算不上是日常特定使用的词语。

上文所说的凝固统计量,是怎么个计算的?我看我在代码里面是不是我实现的意思~

jannson avatar Jan 29 '15 06:01 jannson

凝固度还是Matrix67那篇文章,计算联合概率

irwenqiang avatar Feb 13 '15 07:02 irwenqiang

hi jannson 想请问一下您参考的那篇论文的名子是什么?

milalaliu avatar Nov 02 '16 03:11 milalaliu

http://www.matrix67.com/blog/archives/5044

jannson avatar Nov 02 '16 04:11 jannson

感谢!

milalaliu avatar Nov 04 '16 01:11 milalaliu