bestzld
Results
2
comments of
bestzld
不是有么,搜狗那个新闻语料库,然后写个脚本把content获取出来合并一下就能用了 [搜狐新闻数据](http://www.sogou.com/labs/resource/cs.php)
应该不是很均衡,我从小说随机摘取问本行,有的文本行识别很好,有的文本行就识别的比较差,用脚本统计一下,然后不足的补充上(最好根据场景,词频来规划,针对你目标场景的语料集合也很重要)