wordmaker
wordmaker copied to clipboard
代码中使用的统计量有哪些?
问题
hi jannson 您在另一个项目的说明中说到该项目用的算法来源于Martrix67的那篇文章,但是在阅读您的代码之后,发现您使用的统计量主要是左右邻接熵, 并未看到您使用凝固度,于是我在此基础上,又添加了凝固度统计量,可以又过滤一些“伪新词”, 但是在有些语料上该工具的新词的发现能力有时候还是不太好,。
所以,请问您的代码中主要都用了哪些统计量? 基于您的经验,如果要进一步优化,您觉得还需要做哪些方向的改进?谢谢!
K
有点久,我已经不大记得那篇论文的专业术语了。 映像中就两点,每个词的词频,以及左右熵。 如果忽略左右熵,可以认为 “我的 ” 是一个词,因为 "我的“ 这个词出现了很多次,超过了某一个阀值
再加上左右熵,”我的“就不是词,因为它是一个很随机的组合,算不上是日常特定使用的词语。
上文所说的凝固统计量,是怎么个计算的?我看我在代码里面是不是我实现的意思~
凝固度还是Matrix67那篇文章,计算联合概率
hi jannson 想请问一下您参考的那篇论文的名子是什么?
http://www.matrix67.com/blog/archives/5044
感谢!