cw2vec
cw2vec copied to clipboard
Implementation of the cw2vec model
请问博主编译c++的环境是linux吗?我在windows下装了gcc( >= 5),但是编译各种报错。。
您好,我需要「字元对应笔画」的数据集,发现您这里有一个完整的档案可以参考。 想请问这个对应集的来源是哪里呢?我可以使用于学术用途吗?谢谢!
加速方法?
博主好,训练7G+的语料时,当前代码运行效率非常低。我试了下用GPU加速训练,在cw2vec_kernals.cc的 REGISTER_KERNEL_BUILDER(Name("NegTrainCw2vec").Device(DEVICE_CPU), NegTrainCw2vecOp);后加上了 ``` #if GOOGLE_CUDA REGISTER_KERNEL_BUILDER(Name("NegTrainCw2vec").Device(DEVICE_GPU), NegTrainCw2vecOp); #endif ``` 同时在shell脚本中指定CUDA_VISIBLE_DEVICES='0',似乎不起作用,博主这边有没有加速建议?可以从哪些方面加速?
博主好,对于中英文混合型的语料,如何处理非中文字符的笔画信息? 语料分词后会得到一些包含英文字符的词,比如“A股”、“CEO”等,我是直接把非中文字符的笔画设为空,即stroke.py中的char2stroke[c]改成char2stroke.get(c, ''),不知道博主有没有其他更好的方法?