shining_love
shining_love
没有发现哪里有做开集识别的地方。。。
关于数据集
非常感谢博主开源了自己的识别部分训练数据。请问博主这个开源的训练数据是用于中文识别的还是英文识别的?我看了博主repo里是训练了两个模型参数文件(分别是用于中文识别和英文识别的),所以想请教一下博主
首先很感谢repo主无私的分享,该repo非常经典。在使用该repo过程中走过很多坑以下简要介绍:(1)模型推断阶段BN层未关闭,(2)模型推断时dropout未关闭(但测试了很多,发现未关闭也没有出现影响),(3)模型中图像宽度缩小8倍进入ctc loss计算这一点限制很大,使得你训练使用的图像宽度和图像中的文字序列长度有较好的比例,不然就会导致ctc loss无法计算出现ctc loss 为inf的情况,即模型结构使得图像宽度缩小8倍很坑,(4)模型采用的原始训练数据是很规整的同一32*280的图片,统一的10个字符长度,但如果我们拿自己的图像(或者开源的数据)是不定长图像宽度以及字符长度,所以为了保证我们同一个batch中图像的宽度是一致的,我们有2种策略选择:一是直接统一resize成同一高和宽(一定要确保宽度满足条件:宽//8>=字符长度+连续字符重复总个数);二是在每个batch中以最大宽度为基准进行pad。这两种策略我测试了在一些图像宽度变化较大,仿射变换严重的数据集上都不太好,首先策略1直接resize会造成图像中文字发生变形,其次策略2在每个batch中以最大宽度为基准进行pad会造成原始图像(特别是一些图与具有最大宽度的图之间宽度相差较大)出现较多非文字空白区域,使得模型难以识别这样的图。 综上:如果想要在宽度一致性较差,宽高比例不好以及图像倾斜度较大的数据集上进行训练建议放弃该repo,选择其他的repo(比如crnn的)
继续训练的问题
在楼主YCG预模型基础上继续训练我自己的数据集(只有英文和数字),但很奇怪精度总是从0开始,我看了其他一些issues讨论也有人遇到这种情况,这样好像跟没加载预训练模型一样,请各位大佬指导一番
一个严重问题
最近一直在研究repo主的这个代码。这个代码算是该领域比较经典的开源repo了。但是很奇怪里面有明显的错误,未有人提及。我仔细看了下repo主的demo测试阶段代码斗胆提出两个问题:(1)BN层在测试阶段采用的是新数据下的均值和标准差,这也是为什么很多人训练结果不错,但测试效果很差的主要原因;(2)测试阶段的dropoutrate为何不关闭?
大佬,如何进行动态shape输入?请问你这个repo支持吗
Hello, is there a tutorial for installing the thor library in the windows environment?
Dear author! After reading the original paper and your work, I have a question: does open set recognition need to change the penultimate layer of deep learning network in the...
It is useful to me!It's so kind of you!