OBBDetection icon indicating copy to clipboard operation
OBBDetection copied to clipboard

roi transformer训练中自动kill

Open Yangjie0610 opened this issue 4 years ago • 4 comments

你好,麻烦问一下,roi transformer训练中自动kill是什么原因,GPU现存利用率刚过半,没有溢出,为什么会自动kill

Yangjie0610 avatar Dec 09 '21 11:12 Yangjie0610

这种情况还真没有见过,可以提供更多信息吗

jbwang1997 avatar Dec 09 '21 14:12 jbwang1997

就是第一个epoch还没结束就自动killed,查了一下日志,说是out of memory了,但是GPU显存利用率刚过半,最主要只要是二阶段的都会出现这个问题 -。- 数据没有问题 内存应该也够

Yangjie0610 avatar Dec 10 '21 13:12 Yangjie0610

https://github.com/jbwang1997/OBBDetection/blob/master/configs/obb/roi_transformer/faster_rcnn_roitrans_r50_fpn_1x_dota10.py#L107 可以尝试将这里的参数注解了,这里设置了超过多少gt使用cpu计算IOU,可能会造成内存超出

jbwang1997 avatar Dec 10 '21 13:12 jbwang1997

https://github.com/jbwang1997/OBBDetection/blob/master/configs/obb/roi_transformer/faster_rcnn_roitrans_r50_fpn_1x_dota10.py#L107 可以尝试将这里的参数注解了,这里设置了超过多少gt使用cpu计算IOU,可能会造成内存超出

好的,谢谢 -。-

Yangjie0610 avatar Dec 10 '21 13:12 Yangjie0610