Derek
Derek
Hi 谢谢您的关注,语料来源: http://www.sogou.com/labs/resource/cs.php 因为语料不太方便传,之前用java写的预处理,之后有可能把处理的程序给出来。
Hi, 不好意思textCNN 还没有上传,发现 dennybritz 已经有一个很好的实现,所以我暂时不打算添加这个模块了。 https://github.com/dennybritz/cnn-text-classification-tf
@leoloee Hello 不知道您的数据样本个数, 个人感觉bi-lstm 的参数很多, 很容易过拟合,
Hi zh模型现在的槽位比较少,zh_entertainment我还在调试, 还只在github上测试没有最终发哈,要是调试好了会更新上去的,要是感兴趣可以一起贡献一下哈。
@ailurus1991 @xum2008 抱歉太忙了才来得及看到,输出_UNK 的情况我也有遇到过,我当时的考虑的原因有以下几个: 1. train, test的标签替换的规则要统一, 因为vocab没有保存数字,日期,英文等字符,一旦有字符输入被模型当成_UNK的向量,之后的timestep很有可能就是接着几个_UNK和 EOS,输出就被截断了; 感觉泛化的能力一般; 2. 输入文章的长度超过120 或者太短,加了很多的Padding; 3. 另外如果用自己的语料训练很有可能是还没有收敛,当时花了8核CPU 1周多的时间在80多万train的pair上训练到perplexity降到40多,感觉就有一定的效果了;我想把更多的test集合发出来,可能能够测试效果; 4. 想看效果可以用一个small的训练集,比如100多句,很容易过拟合,可以试试,就不会出现UNK的效果,输出标题和训练的Label就非常接近了;
谢谢您, 能否留下完整的运行哪个脚本或者程序得到的这个错误的?
Hi @stevenzhou1990 Sorry for the late reply. Actually it's a good point, I didn't add a max-epoch or perplexity constraint to stop the training process while babysitting the model training...
Hi, Thanks for your feedback. The method in the project is a little bit tricky and just a short-term solution to get the Attn-Mask tensor out (tensorflow 1.0). Since tensorflow...
您好,我看了您的记录,新模型需要更新 ModelLargeConfig 那个类, 就是 target output size 是要改成你的标签的个数。可以修改 ner_model.py中的 get_config() 函数
@onep2p Hello 不好意思过年回来才有时间处理,词性训练可以带入标点的,没有完整的 bug trace 也不方便找原因,可以接个图吗。另外公司实体的感兴趣contribe 出来吗,欢迎提 merge request哈?分词或者是什么的。