pytorch_solov2 icon indicating copy to clipboard operation
pytorch_solov2 copied to clipboard

batch_size相关

Open pangkun248 opened this issue 4 years ago • 3 comments

RT, 1.我阅读源码发现网络并非是并行运行。有些像对一个batch的数据进行for循环。 2.同时我发现bs从2开始往上提升的话对训练速度就没有收益了(怀疑和1有关),coco的话每个epoch约2h。我本地无法编译mmdetection。所有不确定原作者是否也是这种情况。 所以想在此和您探讨一下。

pangkun248 avatar Jun 15 '21 04:06 pangkun248

  1. 对,这个并非是并行运行的,只是简单的循环。
  2. 目前没发现这个问题,你测试的时候是bs增大和bs小的时候训练时间一样的吗?我没测过,感觉应该会快一些呢。我有空试试。
  3. 这个不依赖mmdetection了。我目前做的这个仓库也很简陋,如果能编译mmdetection推荐使用官方的代码训练好一些。我这个算是精简版的,便于理解结构吧QwQ ... ...

ABlueLight avatar Jun 15 '21 09:06 ABlueLight

嗯,我下午又尝试了一些设置。发现config中imgs_per_gpu、workers_per_gpu、num_gpus前两个参数单方面增加对训练速度无增益。但是增加num_gpus会有明显增益。我暂时没有完整的看代码中数据加载部分以及bs如何设置的。但应该与此有关,

pangkun248 avatar Jun 15 '21 11:06 pangkun248

好像是的,感觉这里我的代码有问题,后面尝试改一下。

ABlueLight avatar Jun 16 '21 02:06 ABlueLight