dvlee1024 comments

Results 14 comments of


                                            dvlee1024

total_loss: nan?

> 看样子是学习率一直在上升导致的Nan，你可以把学习率调小一点，顺便问一下，训练的哪个数据集？人脸的，wider face。学习率不是应该一直下降的吗？ @YunYang1994

我知道了,我的数据集大，steps_per_epoch为1250，warmup为10的话，warmup_steps为12500。我的global_steps一直小于warmup_steps，lr一直处于上升阶段 ``` steps_per_epoch = len(trainset) warmup_steps = cfg.TRAIN.WARMUP_EPOCHS * steps_per_epoch total_steps = cfg.TRAIN.EPOCHS * steps_per_epoch ``` ``` if global_steps < warmup_steps: lr = global_steps / warmup_steps *cfg.TRAIN.LR_INIT else: lr...

total_loss: nan?

> ``` > __C.TRAIN.LR_INIT = 1e-4 > __C.TRAIN.LR_END = 1e-6 > __C.TRAIN.WARMUP_EPOCHS = 4 > ``` > > 试试？其实warmup有什么用的，我还打算设置成0

total_loss: nan?

restore上次的weight继续训练，还需要warmup吗？外行入门，还是要抽空看看书😂

关于训练时间!

看你机器的算力和图集大小，昨晚用WIDER FACE的10000张图片训练人脸，1080显卡，batchsize 8，一小时收敛到20~80的loss，后面持续了几个小时，loss跳动幅度特别大。训练了一晚上，后来loss还变成nan了。我拿epoch20~30来测试，识别人脸效果还可以。

关于训练时间!

> @dvlee1024，你的batchsize取的是多大的呢 batchsize 8。我现在重新训练，数据集还是用WIDER FACE，把小脸、模糊等anno去掉了，把IMG_AUG关了，收敛效果比之前好多了，训练十分钟loss在15左右十分钟后，loss下降到10以内，然后就出现nan了， @YunYang1994 ，是不是有bug啊

关于TRAIN.DATA_AUG

> 我没明白你要表达的意思。。 random_crop、random_translate、random_horizontal_flip 生成的image保存到哪里的？一般的Image Augmentation 不是应该把一张原图通过缩放、平移等操作生成很多张图片投入到训练集当中吗

关于TRAIN.DATA_AUG

> 不是直接返回了吗？那现在逻辑是直接用augmentation的图片来训练，不用原图了吗？我之前都是1张原图生成n张augmentation的图，然后全部放在数据集里喂给模型训练。您这个DATA_AUG的开关，我不太懂。请指教!

关于TRAIN.DATA_AUG

Thx，明白你意思了，每次处理同一张图的时候，概率性数据增强。跟我之前的用法不同，我之前是直接在训练数据集里面添加增强的数据

predicting zero objects always

Me too. I am using my own dataset which has 2 classes. Still predice zero objects. I did not modify any value in config.py except `__C.TRAIN.ANNOT_PATH` and `__C.YOLO.CLASSES`. I used...