大Y杨
大Y杨
> Yes. The purpose of the packing is to handle with memory movement with a datatype that is supported in the target hardware (int8, int32 in cpu/gpu). If you want...
我也有同样的问题,比如我们使用4bit的量化,量化结果是16个,但它们的值还保持浮点数形式,这样真的可以压缩模型的大小吗?
这个op级是什么意思呀,意思是使用tensorrt做加速的时候可以自动的把模型量化到对应的整数吗? 量化新手,感谢回复!
如果要实现变成整数的weight和bias,是否可以按照量化公式,用pth中的scale,zero_point来得到量化中间值呢?
> 大佬你好,最近趁着假期在学习大佬的代码收获颇丰,已向周围小伙伴推荐了大佬的代码。但是关于量化过程中我有一点想不明白,训练得到quant_model后(也就是大佬的模型)。 :1、我在模型部署阶段,是需要把里面的卷积权值小数乘以255变成整数吗?如果是的话,卷积后的特征图也也是整数,但时当特征图经过BN层时,BN层的值全是浮点小数怎么和特征图进行定点运算呢?即前向推断过程中,即Conv->BN->激活函数,这一样过程,数据是咋流动的呢? 2、BN层融合这儿,量化训练后,如果把卷积层和BN层融合,变为新的卷积层后,那么这个卷积层的参数便不再是定点小数了,乘以尺度因子后,它也变不回int型的数吖,所以在前向推断中无法进行int定点化运算呢? 我也有相同的疑问,我们需要将保存的模型量化成int型才能真正的减少模型大小,加速模型运算的过程吧。但我看到很多库都是模拟量化过程,我个人觉得还需要按照量化公式使用scale等才能实现整数量化。