MultiPoseNet.pytorch icon indicating copy to clipboard operation
MultiPoseNet.pytorch copied to clipboard

detection subnet training

Open accountcwd opened this issue 6 years ago • 9 comments

你好,检测子网络我训练了80epoch,val_loss只降到0.48,跟baseline模型相差有点大,请问当时训练baseline的时候就是现在的设置了吗?

按照你的预设的max_epoch=50,训练到完成loss曲线仍一直下降,学习率(1e-5)还未发生过改变。

my model(80epoch):

Validation loss: mean: 0.48589630182399307, std: 0.056519281222650285

baseline model: Validation loss: mean: 0.3989471616440041, std: 0.06292749785476406

accountcwd avatar Aug 05 '19 07:08 accountcwd

设置应该没有改变,建议重新训练一下或者调整一下参数

LiMeng95 avatar Aug 06 '19 04:08 LiMeng95

设置应该没有改变,建议重新训练一下或者调整一下参数

我检查了一下,可能我忘记设置Disable cudnn for batch_norm了,这个设置有关吗?

现在换480*480输入,学习率5e-5(一开始写1e-5写错了),decay rate=0.316,patience=2,进行学习。

accountcwd avatar Aug 06 '19 04:08 accountcwd

pytorch0.4版本是需要Disable cudnn for batch_norm的,1.0以后的版本不需要。

LiMeng95 avatar Aug 06 '19 04:08 LiMeng95

设置应该没有改变,建议重新训练一下或者调整一下参数

我检查了一下,可能我忘记设置Disable cudnn for batch_norm了,这个设置有关吗?

现在换480*480输入,学习率1e-5,decay rate=0.316,patience=2,进行学习。

期待分享训练结果!^&^,不过patience=2会不会太小了一点

BananaLv26 avatar Aug 06 '19 09:08 BananaLv26

设置应该没有改变,建议重新训练一下或者调整一下参数

我检查了一下,可能我忘记设置Disable cudnn for batch_norm了,这个设置有关吗? 现在换480*480输入,学习率1e-5,decay rate=0.316,patience=2,进行学习。

期待分享训练结果!^&^,不过patience=2会不会太小了一点

因为我每次下降的系数是0.316,也就是说需要两次下降才等于原来的一次,这样我想学习率曲线会平滑一点。

accountcwd avatar Aug 06 '19 09:08 accountcwd

pytorch0.4版本是需要Disable cudnn for batch_norm的,1.0以后的版本不需要。

期待大牛的pytorch1.X版本~ 应该是修改一些工具调用方式的问题?

accountcwd avatar Aug 06 '19 09:08 accountcwd

过奖了。1.0版本下代码的某些细节需要修改,绝大部分是不变的。

LiMeng95 avatar Aug 06 '19 10:08 LiMeng95

设置应该没有改变,建议重新训练一下或者调整一下参数

我检查了一下,可能我忘记设置Disable cudnn for batch_norm了,这个设置有关吗? 现在换480*480输入,学习率1e-5,decay rate=0.316,patience=2,进行学习。

期待分享训练结果!^&^,不过patience=2会不会太小了一点

因为我每次下降的系数是0.316,也就是说需要两次下降才等于原来的一次,这样我想学习率曲线会平滑一点。

Hi,请问你现在有训练出比较好的结果吗,因为我还尝试了res50, detetcion loss也是一直降不下去,如果可以的话我们可以加一下微信方便交流一些问题吗

BananaLv26 avatar Aug 12 '19 08:08 BananaLv26

设置应该没有改变,建议重新训练一下或者调整一下参数

我检查了一下,可能我忘记设置Disable cudnn for batch_norm了,这个设置有关吗? 现在换480*480输入,学习率1e-5,decay rate=0.316,patience=2,进行学习。

期待分享训练结果!^&^,不过patience=2会不会太小了一点

因为我每次下降的系数是0.316,也就是说需要两次下降才等于原来的一次,这样我想学习率曲线会平滑一点。

Hi,请问你现在有训练出比较好的结果吗,因为我还尝试了res50, detetcion loss也是一直降不下去,如果可以的话我们可以加一下微信方便交流一些问题吗

我训练了43个epoch因为某些原因暂时停止了训练,loss大概为0.41左右,学习率降到5e-6,我觉得继续训练下去应该还能降个0.02左右。

accountcwd avatar Aug 12 '19 14:08 accountcwd