ShuGao0810 issues

Results 8 issues of


                                            ShuGao0810

分词器用的是ymcui项目中训练的吗？

博主好，ymcui项目中的分词器有些词分的不好，影响阅读理解答案的边界，请问你这里的分词器有重新训练吗？

What is the specific formula for learning rate used in adam optimizer during pre-train?

In your paper, the learning rate used in adam optimizer during pre-train is described as follows: 'We used the Adam optimization scheme [27] with a max learning rate of 2.5e-4....

博主好，foolnltk使用时发现加载用户字典不起作用，不知道是什么原因导致的，具体如下：环境：win10+python3.6 fool.analysis('阿里收购饿了么') 返回：([[('阿里', 'nz'), ('收购', 'v'), ('饿', 'v'), ('了', 'y'), ('么', 'y')]], [[(0, 3, 'company', '阿里')]]) 用户字典格式：饿了么 10 fool.load_userdict(path) fool.analysis('阿里收购饿了么') 返回：([[('阿里', 'nz'), ('收购', 'v'), ('饿', 'v'), ('了', 'y'),...

bug

build_qa_database.py插数的时候有个小问题

数据量少于BULK_COUNT未执行插数，修改了一下： ``` def init_ES(): pie = ProcessIntoES() # 创建ES的index pie.create_mapping() start_time = time.time() index = 0 count = 0 action_list = [] BULK_COUNT = 1000 # 每BULK_COUNT个句子一起插入到ES中 for line in...

cw2vec_ops.cc和cw2vec_kernels.cc编译环境？

请问博主编译c++的环境是linux吗？我在windows下装了gcc( >= 5)，但是编译各种报错。。

加速方法？

博主好，训练7G+的语料时，当前代码运行效率非常低。我试了下用GPU加速训练，在cw2vec_kernals.cc的 REGISTER_KERNEL_BUILDER(Name("NegTrainCw2vec").Device(DEVICE_CPU), NegTrainCw2vecOp);后加上了 ``` #if GOOGLE_CUDA REGISTER_KERNEL_BUILDER(Name("NegTrainCw2vec").Device(DEVICE_GPU), NegTrainCw2vecOp); #endif ``` 同时在shell脚本中指定CUDA_VISIBLE_DEVICES='0'，似乎不起作用，博主这边有没有加速建议？可以从哪些方面加速？

非中文字符笔画信息？

博主好，对于中英文混合型的语料，如何处理非中文字符的笔画信息？语料分词后会得到一些包含英文字符的词，比如“A股”、“CEO”等，我是直接把非中文字符的笔画设为空，即stroke.py中的char2stroke[c]改成char2stroke.get(c, '')，不知道博主有没有其他更好的方法？

ShuGao0810