wordmaker icon indicating copy to clipboard operation
wordmaker copied to clipboard

auto generate chinese words in huge text.

Results 5 wordmaker issues
Sort by recently updated
recently updated
newest added

## 问题 hi jannson 您在另一个项目的说明中说到该项目用的算法来源于Martrix67的那篇文章,但是在阅读您的代码之后,发现您使用的统计量主要是**左右邻接熵**, 并未看到您使用凝固度,于是我在此基础上,又添加了凝固度统计量,可以又过滤一些“伪新词”, 但是在有些语料上该工具的新词的发现能力有时候还是不太好,。 所以,请问您的代码中主要都用了哪些统计量? 基于您的经验,如果要进一步优化,您觉得还需要做哪些方向的改进?谢谢! K

cmake version 2.8.12.2, 编译完成后,在200MB以下文本的使用hugemaker没有问题,但超过该规模的文本使用hugemaker,会报如下错误: ``` hugemaker: /home/supermicro/programs/wordmaker-master/src/hugemaker.cpp:808: void WordMaker::reduce_step1(): Assertion `-1 != open_status' failed. Aborted (core dumped) ``` 发现会不会是因为编译wordmaker时出错影响了后面的使用,报错信息如下: Linking CXX static library ../lib/libmarisa.a [ 81%] Built target marisa Scanning...

之前使用hugemaker对100M左右的文件进行新词发现,可以正确运行,没问题。但今天出现如下报错信息,还请版主明示:hugemaker: /home/supermicro/programs/wordmaker-master/src/hugemaker.cpp:808: void WordMaker::reduce_step1(): Assertion `-1 != open_status' failed. Aborted (core dumped) word_freq.txt_seq都正常

term freq left entropy right entropy 湿隔离 257 12.850000 2.502627 保湿隔离 255 12.750000 2.498990 这两个实际上可以组合成一个,代码里面可以加个支持啊.

用cmake2.8.7 进行cmake 时报错,并且make 也报错。 cmake的提示: wordmaker-master/build$ cmake .. CMake Warning (dev) in CMakeLists.txt: No cmake_minimum_required command is present. A line of code such as ``` cmake_minimum_required(VERSION 2.8) ``` should be...

bug