Derek comments

Results 16 comments of


                                            Derek

[text_sum] 预处理问题

Hi 谢谢您的关注，语料来源: http://www.sogou.com/labs/resource/cs.php 因为语料不太方便传，之前用java写的预处理，之后有可能把处理的程序给出来。

请问TextCNN（WIP）文本分类的模块在哪里？

Hi, 不好意思textCNN 还没有上传，发现 dennybritz 已经有一个很好的实现，所以我暂时不打算添加这个模块了。 https://github.com/dennybritz/cnn-text-classification-tf

模型结果(pos_model_bilstm.py)

@leoloee Hello 不知道您的数据样本个数, 个人感觉bi-lstm 的参数很多, 很容易过拟合，

deepnlp1.7是需要配合python3+tensorflow1.4吗？

Hi zh模型现在的槽位比较少，zh_entertainment我还在调试, 还只在github上测试没有最终发哈，要是调试好了会更新上去的，要是感兴趣可以一起贡献一下哈。

@ailurus1991 @xum2008 抱歉太忙了才来得及看到，输出_UNK 的情况我也有遇到过，我当时的考虑的原因有以下几个: 1. train, test的标签替换的规则要统一, 因为vocab没有保存数字，日期，英文等字符，一旦有字符输入被模型当成_UNK的向量，之后的timestep很有可能就是接着几个_UNK和 EOS，输出就被截断了；感觉泛化的能力一般； 2. 输入文章的长度超过120 或者太短，加了很多的Padding； 3. 另外如果用自己的语料训练很有可能是还没有收敛，当时花了8核CPU 1周多的时间在80多万train的pair上训练到perplexity降到40多，感觉就有一定的效果了；我想把更多的test集合发出来，可能能够测试效果； 4. 想看效果可以用一个small的训练集，比如100多句，很容易过拟合，可以试试，就不会出现UNK的效果，输出标题和训练的Label就非常接近了；

AttributeError: 'NoneType' object has no attribute 'update'

谢谢您，能否留下完整的运行哪个脚本或者程序得到的这个错误的？

train processs

Hi @stevenzhou1990 Sorry for the late reply. Actually it's a good point, I didn't add a max-epoch or perplexity constraint to stop the training process while babysitting the model training...

[textsum]Attention heatmap error

Hi, Thanks for your feedback. The method in the project is a little bit tricky and just a short-term solution to get the Attn-Mask tensor out (tensorflow 1.0). Since tensorflow...

NER训练报错

您好，我看了您的记录，新模型需要更新 ModelLargeConfig 那个类, 就是 target output size 是要改成你的标签的个数。可以修改 ner_model.py中的 get_config() 函数

NER训练报错

@onep2p Hello 不好意思过年回来才有时间处理，词性训练可以带入标点的，没有完整的 bug trace 也不方便找原因，可以接个图吗。另外公司实体的感兴趣contribe 出来吗，欢迎提 merge request哈？分词或者是什么的。