Query6DoF icon indicating copy to clipboard operation
Query6DoF copied to clipboard

训练出现nan

Open luzzou opened this issue 2 years ago • 7 comments

Screenshot from 2023-11-03 16-12-44

你好,请问训练的时候出现这种情况怎么解决呀,我训练了两次都出现了这个问题,没有修改过代码

luzzou avatar Nov 03 '23 08:11 luzzou

pytorch版本最好使用1.10

RuiqiWang00 avatar Nov 03 '23 08:11 RuiqiWang00

pytorch版本最好使用1.10 Screenshot from 2023-11-03 16-48-08

你好,我的环境就是1.10,测试是正常的,就是训练的时候会出现这个问题

luzzou avatar Nov 03 '23 08:11 luzzou

你是几个卡训练的,也可能跟机器有关

LemonQC avatar Nov 04 '23 03:11 LemonQC

你是几个卡训练的,也可能跟机器有关

我用单张3090的机器和4张3090的机器试过,都有这个问题。但是把self.use_augment设置成False就能正常训练,把训练第50轮的ckpt用来测试,得到的结果和论文里不使用数据增强的结果也比较接近

Screenshot from 2023-11-09 20-56-58

luzzou avatar Nov 09 '23 13:11 luzzou

你是几个卡训练的,也可能跟机器有关

我用单张3090的机器和4张3090的机器试过,都有这个问题。但是把self.use_augment设置成False就能正常训练,把训练第50轮的ckpt用来测试,得到的结果和论文里不使用数据增强的结果也比较接近

Screenshot from 2023-11-09 20-56-58

请问单卡3090,bs和numworker怎么设置的,大概训了多久,谢谢

lq-dlut avatar Mar 04 '24 08:03 lq-dlut

你是几个卡训练的,也可能跟机器有关

我用单张3090的机器和4张3090的机器试过,都有这个问题。但是把self.use_augment设置成False就能正常训练,把训练第50轮的ckpt用来测试,得到的结果和论文里不使用数据增强的结果也比较接近 Screenshot from 2023-11-09 20-56-58

请问单卡3090,bs和numworker怎么设置的,大概训了多久,谢谢

num_worker应该没有改,bs可能是24或者32之类的,不好意思,我毕业了没有用之前的服务器了,记不清了

luzzou avatar Mar 04 '24 09:03 luzzou

你是几个卡训练的,也可能跟机器有关

我用单张3090的机器和4张3090的机器试过,都有这个问题。但是把self.use_augment设置成False就能正常训练,把训练第50轮的ckpt用来测试,得到的结果和论文里不使用数据增强的结果也比较接近 Screenshot from 2023-11-09 20-56-58

请问单卡3090,bs和numworker怎么设置的,大概训了多久,谢谢

num_worker应该没有改,bs可能是24或者32之类的,不好意思,我毕业了没有用之前的服务器了,记不清了

好的谢谢

lq-dlut avatar Mar 04 '24 11:03 lq-dlut