caffe_ocr icon indicating copy to clipboard operation
caffe_ocr copied to clipboard

关于训练集字符平衡问题

Open moondaiy opened this issue 7 years ago • 1 comments

LZ大神好,请问下,是否统计过汉子字符出现的频率?是否平衡???

moondaiy avatar Feb 13 '18 08:02 moondaiy

应该不是很均衡,我从小说随机摘取问本行,有的文本行识别很好,有的文本行就识别的比较差,用脚本统计一下,然后不足的补充上(最好根据场景,词频来规划,针对你目标场景的语料集合也很重要)

bestzld avatar Jun 15 '18 10:06 bestzld