wordmaker

wordmaker copied to clipboard

Reame
Issues

代码中使用的统计量有哪些？

Open kwinww opened this issue 11 years ago • 5 comments

问题

hi jannson 您在另一个项目的说明中说到该项目用的算法来源于Martrix67的那篇文章，但是在阅读您的代码之后，发现您使用的统计量主要是左右邻接熵，并未看到您使用凝固度，于是我在此基础上，又添加了凝固度统计量，可以又过滤一些“伪新词”，但是在有些语料上该工具的新词的发现能力有时候还是不太好,。

所以，请问您的代码中主要都用了哪些统计量？基于您的经验，如果要进一步优化，您觉得还需要做哪些方向的改进？谢谢！

K

Jan 28 '15 09:01 kwinww

有点久，我已经不大记得那篇论文的专业术语了。映像中就两点，每个词的词频，以及左右熵。如果忽略左右熵，可以认为 “我的 ” 是一个词，因为 "我的“ 这个词出现了很多次，超过了某一个阀值

再加上左右熵，”我的“就不是词，因为它是一个很随机的组合，算不上是日常特定使用的词语。

上文所说的凝固统计量，是怎么个计算的？我看我在代码里面是不是我实现的意思~

Jan 29 '15 06:01 jannson

凝固度还是Matrix67那篇文章，计算联合概率

Feb 13 '15 07:02 irwenqiang

hi jannson 想请问一下您参考的那篇论文的名子是什么?

Nov 02 '16 03:11 milalaliu

http://www.matrix67.com/blog/archives/5044

Nov 02 '16 04:11 jannson

感谢!

Nov 04 '16 01:11 milalaliu