Qiulin Zhang
Qiulin Zhang
我也有这个问题,作者的实现的差不多5个G,测试准确率有78.9, pytorch官方实现差不多1.4个G,测试集准确率也只有60%,,请问有看到问题在哪吗? 而且pytorch官方实现速度快很多
> > 我也有这个问题,作者的实现的差不多5个G,测试准确率有78.9, pytorch官方实现差不多1.4个G,测试集准确率也只有60%,,请问有看到问题在哪吗? > > 而且pytorch官方实现速度快很多 > > 你用的resnet多少啊 resent50
> > 我的pytorch==1.2, torchvision=0.4.0 > > 我试着用torchvision.models中实现的ResNet去运行train.py训练,结果在测试集上的ACC只有 _**60%**_ 左右。我用作者你实现的ResNet训练的话,ACC大概符合预期。 > > 二者区别还有一个,Batch_size=128时,用torchvision.models中的网络训练,GPU_Memory大概只用了1.4G,而用作者你的实现,GPU_Memory大概要占用5G左右,感觉像是给Batch-Size中每个图片都分配了一个model。 > > 请问这个实现网络的时候有区别,还是咱们的pytorch版本不同导致的问题? > > 谢谢。 > > > > > 我也有这个问题,作者的实现的差不多5个G,测试准确率有78.9, pytorch官方实现差不多1.4个G,测试集准确率也只有60%,,请问有看到问题在哪吗? > > > > 而且pytorch官方实现速度快很多...
I got it. Thanks for your reply. --- By the way, If training on 1080Ti, 2080Ti or V100, why adopt inference comparison on one 1050Ti? I am a little curious....
Thanks for your patient reply. in your reply, "I don't think it makes much sense to use it on very powerful GPUs, since overhead becomes a much more important factor...
Great work!!! your patient reply helps me a lot to understand your paper and novel idea! --- with a more powerful 1080Ti, the results shows 60% speedup (batch 32) and...
Hello Gchang9,多谢关注 1. Spconv结构是会比普通的3x3卷积消耗更多的显存。因为一个大的整体的卷积操作被转换成了几个小的卷积加和以及concat操作,这样在一次卷积操作中,显存需要保存更多的中间变量,虽然每个中间变量比原来的小,但是数量比原来多,所以造成了显存增加的情况 2. 速度较慢,这个与batchsize有关。由于是一个整体的大卷积操作被转换成了几个小操作,如果batchsize比较小,1,2,4,8这种,速度就会比较慢;当batchsize比较大的时候,比如64 128时,多个小操作的速度就会比一个大操作的速度快。当然,也和显卡有关系,paper在测试时采用的是 NVIDIA TESLA V100 32G, batchsize 64,测试结构是比普通的3x3稍微快一点
Hello,我今天晚上跑了一下是可以复现的啊,我用的就是 https://github.com/kuangliu/pytorch-cifar 这里面的代码,没做其他修改,只是插入了 SPConv3x3 卷积 替换原来的 nn.conv2d(kernel_size=3)
> Hello,我今天晚上跑了一下是可以复现的啊,我用的就是 https://github.com/kuangliu/pytorch-cifar 这里面的代码,没做其他修改,只是插入了 SPConv3x3 卷积 替换原来的 nn.conv2d(kernel_size=3)
> thanks for the question. the stability is a relative concept, which is under different settings: per-channel in lsq and per-tensor in tqt. i re-implement tqt in mqbench, and support...