andyjiang

Results 112 comments of andyjiang

make sure you use the right pdf file and set the valid pdf path

then make sure you use the latest code, i try it and it works well. you can debug it

这两个都是基于nlp提供的预训练模型来实现的,原始的预训练模型就是这么大,没法调整大小了

根据需求自行配置哈

v3的核心点是svtr,由于neck部分使用了svtr结构,导致模型有所增大,为了保证整体模型不太大,所以去掉了mid_channels,你也可以试一下加上的效果

> > v3的核心点是svtr,由于neck部分使用了svtr结构,导致模型有所增大,为了保证整体模型不太大,所以去掉了mid_channels,你也可以试一下加上的效果 > > 注意到相同的图片尺寸输入,V3版本是比V2版本要少一半特征,比如 32x96 尺度,V2版本最终输出结果是 (24x字典字符个数),而V3版本最终输出是(12x字典字符个数)。这是因为网络主干的backbone中加了参数 last_conv_stride:[1,2] 造成的吗?我看V2版本使用了默认的last_conv_stride:1 > > 这样做也是为了保证模型不太大吗,感觉精度会有一定程度损失,最起码我输出的ctc解码定位的单个字符位置精度是不如V2版本的。 是的,都是为了保证模型不太大,如果对模型大小没要求,也可以修改这些参数试试效果

avgpool会保留更多信息,效果会好一点点,可以做一下消融实验对比下哈