PaddleCustomDevice icon indicating copy to clipboard operation
PaddleCustomDevice copied to clipboard

昇腾910B上训练厂内VIMER-UFO大模型,几个epoch后稳定报错

Open Jeremy-lf opened this issue 2 years ago • 4 comments

7aee8fe238ed06109fee9fac53dee2c2 使用昇腾910B训练VIMER-UFO大模型,在训练几个epoch后会稳定报这个错,如何解决? 如流联系:lvfeng02

Jeremy-lf avatar Nov 15 '23 03:11 Jeremy-lf

你好,看下/usr/local/Ascend目录下asend的报错log,看下有什么报错信息

YanhuiDua avatar Nov 17 '23 02:11 YanhuiDua

你好,看下/usr/local/Ascend目录下asend的报错log,看下有什么报错信息

目前这个问题是,只训练不评测没问题,但是中间评测的话,他就会报这个错,好像是训练与评测之间切换的问题。你说的那个目录下没有找到相应的log

Jeremy-lf avatar Nov 17 '23 02:11 Jeremy-lf

你好,看下/usr/local/Ascend目录下asend的报错log,看下有什么报错信息

目前这个问题是,只训练不评测没问题,但是中间评测的话,他就会报这个错,好像是训练与评测之间切换的问题。你说的那个目录下没有找到相应的log

目录刚刚给错了,目录为:/root/ascend/log/debug/plog/;可以把之前的plog都删掉,测试下单独跑评估是否会报错,如果出现一样的错误,cd /root/ascend/log/debug/plog/ && grep ERROR * -C 20,看下相关的报错信息

YanhuiDua avatar Nov 17 '23 03:11 YanhuiDua

你好,看下/usr/local/Ascend目录下asend的报错log,看下有什么报错信息

目前这个问题是,只训练不评测没问题,但是中间评测的话,他就会报这个错,好像是训练与评测之间切换的问题。你说的那个目录下没有找到相应的log

目录刚刚给错了,目录为:/root/ascend/log/debug/plog/;可以把之前的plog都删掉,测试下单独跑评估是否会报错,如果出现一样的错误,cd /root/ascend/log/debug/plog/ && grep ERROR * -C 20,看下相关的报错信息

单独评测不会报错,只有在训练中评测会报错,报的错就是图里那个

Jeremy-lf avatar Nov 17 '23 03:11 Jeremy-lf

您好,以上问题是否依旧解决,谢谢!

qili93 avatar May 22 '24 02:05 qili93

Close as no more comments for more then two weeks, please reopen if not resolved, thanks!

qili93 avatar Jun 07 '24 06:06 qili93