STDC-Seg icon indicating copy to clipboard operation
STDC-Seg copied to clipboard

我在执行训练是遇到了 No module named 'inplace_abn“这一问题

Open WangzekunY opened this issue 4 years ago • 9 comments

通过查找原因,初步锁定在modules/functions.py中的load函数中的name属性这个位置,接下来便不知如何处理。

WangzekunY avatar Jul 08 '21 07:07 WangzekunY

通过查找原因,初步锁定在modules/functions.py中的load函数中的name属性这个位置,接下来便不知如何处理。

这个你对照下pytorch版本吧,我估计就是你的机器syncbn编译不过去,不行你就换成正常bn, 不过可能有掉点

MichaelFan01 avatar Jul 08 '21 11:07 MichaelFan01

通过查找原因,初步锁定在modules/functions.py中的load函数中的name属性这个位置,接下来便不知如何处理。

这个你对照下pytorch版本吧,我估计就是你的机器syncbn编译不过去,不行你就换成正常bn, 不过可能有掉点

我也遇到了这个问题,不过考虑到可能是由于是用的Windows环境(本来打算3080单卡减batchsize跑跑看发现报错)之后打算换成ubuntu试试看,另外作者使用的v100是16g版本还是32g版本?我这边打算上两块3090但可能pytorch1.9,cuda11.x对分布训练又有别的要求

menghd avatar Jul 13 '21 03:07 menghd

我之前在2块2070进行训练;出现错误后换了实验室集群训练,使用4块2080仍然出现错误;之后通过查找资料排查错误,最终在集群环境通过命令“apt-get install ninja-build”安装 依赖,之后不再出现该错误,你可以试一下是否有效。

WangzekunY avatar Jul 13 '21 04:07 WangzekunY

通过查找原因,初步锁定在modules/functions.py中的load函数中的name属性这个位置,接下来便不知如何处理。

这个你对照下pytorch版本吧,我估计就是你的机器syncbn编译不过去,不行你就换成正常bn, 不过可能有掉点

我也遇到了这个问题,不过考虑到可能是由于是用的Windows环境(本来打算3080单卡减batchsize跑跑看发现报错)之后打算换成ubuntu试试看,另外作者使用的v100是16g版本还是32g版本?我这边打算上两块3090但可能pytorch1.9,cuda11.x对分布训练又有别的要求

16g 32g都可以,我也记不清了,我们这儿有时候给32g的有时候给16g的;感觉速度差不多

MichaelFan01 avatar Jul 14 '21 02:07 MichaelFan01

通过查找原因,初步锁定在modules/functions.py中的load函数中的name属性这个位置,接下来便不知如何处理。

这个你对照下pytorch版本吧,我估计就是你的机器syncbn编译不过去,不行你就换成正常bn, 不过可能有掉点

我也遇到了这个问题,不过考虑到可能是由于是用的Windows环境(本来打算3080单卡减batchsize跑跑看发现报错)之后打算换成ubuntu试试看,另外作者使用的v100是16g版本还是32g版本?我这边打算上两块3090但可能pytorch1.9,cuda11.x对分布训练又有别的要求

16g 32g都可以,我也记不清了,我们这儿有时候给32g的有时候给16g的;感觉速度差不多

在Windows下是不是没有办法单卡训练呢?(我把命令行前的export指定显卡指令去掉了,在train.py里的os下设置了可见显卡为‘0’),inplace_abn替换为了普通bn(取消了注释),但运行会报诸如 CUDA error: invalid device ordinal,Ran out of input等问题(已经把后端改成gloo适用于windows虽然nccl才是多gpu的标配),就算把numworker按网上博客所说的解决方法改为0也无法跑起来(),因为之前没有接触过多卡项目所以不太明白其中的注意事项,麻烦作者解答了(也希望有跑通Windows单卡的小伙伴们能支支招hhh)

menghd avatar Jul 16 '21 06:07 menghd

通过查找原因,初步锁定在modules/functions.py中的load函数中的name属性这个位置,接下来便不知如何处理。

这个你对照下pytorch版本吧,我估计就是你的机器syncbn编译不过去,不行你就换成正常bn, 不过可能有掉点

我也遇到了这个问题,不过考虑到可能是由于是用的Windows环境(本来打算3080单卡减batchsize跑跑看发现报错)之后打算换成ubuntu试试看,另外作者使用的v100是16g版本还是32g版本?我这边打算上两块3090但可能pytorch1.9,cuda11.x对分布训练又有别的要求

16g 32g都可以,我也记不清了,我们这儿有时候给32g的有时候给16g的;感觉速度差不多

在Windows下是不是没有办法单卡训练呢?(我把命令行前的export指定显卡指令去掉了,在train.py里的os下设置了可见显卡为‘0’),inplace_abn替换为了普通bn(取消了注释),但运行会报诸如 CUDA error: invalid device ordinal,Ran out of input等问题(已经把后端改成gloo适用于windows虽然nccl才是多gpu的标配),就算把numworker按网上博客所说的解决方法改为0也无法跑起来(),因为之前没有接触过多卡项目所以不太明白其中的注意事项,麻烦作者解答了(也希望有跑通Windows单卡的小伙伴们能支支招hhh)

没试过windows, 爱莫能助啊,为啥不用linux呢~

MichaelFan01 avatar Jul 16 '21 06:07 MichaelFan01

通过查找原因,初步锁定在modules/functions.py中的load函数中的name属性这个位置,接下来便不知如何处理。

这个你对照下pytorch版本吧,我估计就是你的机器syncbn编译不过去,不行你就换成正常bn, 不过可能有掉点

我也遇到了这个问题,不过考虑到可能是由于是用的Windows环境(本来打算3080单卡减batchsize跑跑看发现报错)之后打算换成ubuntu试试看,另外作者使用的v100是16g版本还是32g版本?我这边打算上两块3090但可能pytorch1.9,cuda11.x对分布训练又有别的要求

16g 32g都可以,我也记不清了,我们这儿有时候给32g的有时候给16g的;感觉速度差不多

Windows是不是没有办法单卡训练呢?(我只把命令行前的export指定显卡指令去掉了,也在train.py里的os下设置了可见显卡为‘0’),inplace_abn替换为了普通bn(取消了注释),但运行会报诸如 CUDA error: invalid device ordinal,Ran out of input等问题(已经把后端改成gloo适用于windows虽然nccl才是多gpu的标配),就算把numworker按网上博客所说改为0也无法跑起来(),之前没有接触过多卡的项目所以不太明白,麻烦作者了

通过查找原因,初步锁定在modules/functions.py中的load函数中的name属性这个位置,接下来便不知如何处理。

这个你对照下pytorch版本吧,我估计就是你的机器syncbn编译不过去,不行你就换成正常bn, 不过可能有掉点

我也遇到了这个问题,不过考虑到可能是由于是用的Windows环境(本来打算3080单卡减batchsize跑跑看发现报错)之后打算换成ubuntu试试看,另外作者使用的v100是16g版本还是32g版本?我这边打算上两块3090但可能pytorch1.9,cuda11.x对分布训练又有别的要求

16g 32g都可以,我也记不清了,我们这儿有时候给32g的有时候给16g的;感觉速度差不多

在Windows下是不是没有办法单卡训练呢?(我把命令行前的export指定显卡指令去掉了,在train.py里的os下设置了可见显卡为‘0’),inplace_abn替换为了普通bn(取消了注释),但运行会报诸如 CUDA error: invalid device ordinal,Ran out of input等问题(已经把后端改成gloo适用于windows虽然nccl才是多gpu的标配),就算把numworker按网上博客所说的解决方法改为0也无法跑起来(),因为之前没有接触过多卡项目所以不太明白其中的注意事项,麻烦作者解答了(也希望有跑通Windows单卡的小伙伴们能支支招hhh)

没试过windows, 爱莫能助啊,为啥不用linux呢~

hhhh thx,最近生产实习分配的工位是张3080windows(看样子应该跑不出来,可以提前放工了,bushi),没去问公司那边有没有专门的服务器,本来想试试看能不能运行先出个初步结果,没想到根本跑不起来,xs,蹲蹲看说不定真有朋友单卡整出来了,或者我尝试改成paddle去aistudio试试看多卡(懒,且摸鱼)

menghd avatar Jul 16 '21 06:07 menghd

通过查找原因,初步锁定在modules/functions.py中的load函数中的name属性这个位置,接下来便不知如何处理。

这个你对照下pytorch版本吧,我估计就是你的机器syncbn编译不过去,不行你就换成正常bn, 不过可能有掉点

我也遇到了这个问题,不过考虑到可能是由于是用的Windows环境(本来打算3080单卡减batchsize跑跑看发现报错)之后打算换成ubuntu试试看,另外作者使用的v100是16g版本还是32g版本?我这边打算上两块3090但可能pytorch1.9,cuda11.x对分布训练又有别的要求

16g 32g都可以,我也记不清了,我们这儿有时候给32g的有时候给16g的;感觉速度差不多

Windows是不是没有办法单卡训练呢?(我只把命令行前的export指定显卡指令去掉了,也在train.py里的os下设置了可见显卡为‘0’),inplace_abn替换为了普通bn(取消了注释),但运行会报诸如 CUDA error: invalid device ordinal,Ran out of input等问题(已经把后端改成gloo适用于windows虽然nccl才是多gpu的标配),就算把numworker按网上博客所说改为0也无法跑起来(),之前没有接触过多卡的项目所以不太明白,麻烦作者了

通过查找原因,初步锁定在modules/functions.py中的load函数中的name属性这个位置,接下来便不知如何处理。

这个你对照下pytorch版本吧,我估计就是你的机器syncbn编译不过去,不行你就换成正常bn, 不过可能有掉点

我也遇到了这个问题,不过考虑到可能是由于是用的Windows环境(本来打算3080单卡减batchsize跑跑看发现报错)之后打算换成ubuntu试试看,另外作者使用的v100是16g版本还是32g版本?我这边打算上两块3090但可能pytorch1.9,cuda11.x对分布训练又有别的要求

16g 32g都可以,我也记不清了,我们这儿有时候给32g的有时候给16g的;感觉速度差不多

在Windows下是不是没有办法单卡训练呢?(我把命令行前的export指定显卡指令去掉了,在train.py里的os下设置了可见显卡为‘0’),inplace_abn替换为了普通bn(取消了注释),但运行会报诸如 CUDA error: invalid device ordinal,Ran out of input等问题(已经把后端改成gloo适用于windows虽然nccl才是多gpu的标配),就算把numworker按网上博客所说的解决方法改为0也无法跑起来(),因为之前没有接触过多卡项目所以不太明白其中的注意事项,麻烦作者解答了(也希望有跑通Windows单卡的小伙伴们能支支招hhh)

没试过windows, 爱莫能助啊,为啥不用linux呢~

hhhh thx,最近生产实习分配的工位是张3080windows(看样子应该跑不出来,可以提前放工了,bushi),没去问公司那边有没有专门的服务器,本来想试试看能不能运行先出个初步结果,没想到根本跑不起来,xs,蹲蹲看说不定真有朋友单卡整出来了,或者我尝试改成paddle去aistudio试试看多卡(懒,且摸鱼)

23333333

MichaelFan01 avatar Jul 16 '21 06:07 MichaelFan01

通过查找原因,初步锁定在modules/functions.py中的load函数中的name属性这个位置,接下来便不知如何处理。

这个你对照下pytorch版本吧,我估计就是你的机器syncbn编译不过去,不行你就换成正常bn, 不过可能有掉点

想请问一下,正常bn和作者的InPlaceABNSync什么区别?尤其是我看调用的时候activation设成了none

XYZach avatar Sep 26 '22 12:09 XYZach