StreamPETR icon indicating copy to clipboard operation
StreamPETR copied to clipboard

关于 flash attention版本导致 VOVNet 为backbone的收敛问题

Open nancy618618 opened this issue 1 year ago • 2 comments

想请问一下,当flash attention版本从 0.2 切换到 2.0, stream_petr_vov_flash_800_bs2_seq_24e (Vovnet为backbone) 收敛会有问题,loss和grad norm会出现 NAN的情况,导致这个的原因是什么呢,谢谢。

nancy618618 avatar May 07 '24 14:05 nancy618618

Uploading train.log…

nancy618618 avatar May 07 '24 14:05 nancy618618

我也出现了这个问题,不过我使用的是stream_petr_r50_flash_704_bs2_seq_24e.py,flash-attn==0.2.8,训练到5w iters左右梯度爆炸了

Gigalomanicx avatar Sep 27 '24 13:09 Gigalomanicx