ShuGao0810

Results 8 issues of ShuGao0810

博主好,ymcui项目中的分词器有些词分的不好,影响阅读理解答案的边界,请问你这里的分词器有重新训练吗?

could u share the pretrain code?

In your paper, the learning rate used in adam optimizer during pre-train is described as follows: 'We used the Adam optimization scheme [27] with a max learning rate of 2.5e-4....

博主好,foolnltk使用时发现加载用户字典不起作用,不知道是什么原因导致的,具体如下: 环境:win10+python3.6 fool.analysis('阿里收购饿了么') 返回:([[('阿里', 'nz'), ('收购', 'v'), ('饿', 'v'), ('了', 'y'), ('么', 'y')]], [[(0, 3, 'company', '阿里')]]) 用户字典格式: 饿了么 10 fool.load_userdict(path) fool.analysis('阿里收购饿了么') 返回:([[('阿里', 'nz'), ('收购', 'v'), ('饿', 'v'), ('了', 'y'),...

bug

数据量少于BULK_COUNT未执行插数,修改了一下: ``` def init_ES(): pie = ProcessIntoES() # 创建ES的index pie.create_mapping() start_time = time.time() index = 0 count = 0 action_list = [] BULK_COUNT = 1000 # 每BULK_COUNT个句子一起插入到ES中 for line in...

请问博主编译c++的环境是linux吗?我在windows下装了gcc( >= 5),但是编译各种报错。。

博主好,训练7G+的语料时,当前代码运行效率非常低。我试了下用GPU加速训练,在cw2vec_kernals.cc的 REGISTER_KERNEL_BUILDER(Name("NegTrainCw2vec").Device(DEVICE_CPU), NegTrainCw2vecOp);后加上了 ``` #if GOOGLE_CUDA REGISTER_KERNEL_BUILDER(Name("NegTrainCw2vec").Device(DEVICE_GPU), NegTrainCw2vecOp); #endif ``` 同时在shell脚本中指定CUDA_VISIBLE_DEVICES='0',似乎不起作用,博主这边有没有加速建议?可以从哪些方面加速?

博主好,对于中英文混合型的语料,如何处理非中文字符的笔画信息? 语料分词后会得到一些包含英文字符的词,比如“A股”、“CEO”等,我是直接把非中文字符的笔画设为空,即stroke.py中的char2stroke[c]改成char2stroke.get(c, ''),不知道博主有没有其他更好的方法?