关于训练集字符平衡问题

Open moondaiy opened this issue 7 years ago • 1 comments

LZ大神好,请问下,是否统计过汉子字符出现的频率?是否平衡???

Feb 13 '18 08:02 moondaiy

应该不是很均衡，我从小说随机摘取问本行，有的文本行识别很好，有的文本行就识别的比较差，用脚本统计一下，然后不足的补充上（最好根据场景，词频来规划，针对你目标场景的语料集合也很重要）

Jun 15 '18 10:06 bestzld