caffe_ocr
caffe_ocr copied to clipboard
关于训练集字符平衡问题
LZ大神好,请问下,是否统计过汉子字符出现的频率?是否平衡???
应该不是很均衡,我从小说随机摘取问本行,有的文本行识别很好,有的文本行就识别的比较差,用脚本统计一下,然后不足的补充上(最好根据场景,词频来规划,针对你目标场景的语料集合也很重要)