网络训练时迭代停止
作者您好,首先对您的作品表示感谢。我在对网络尝试训练时遇到了一下问题,想请教您: 在训练过程中迭代停止,但是代码并未终止,GPU不在工作且显存并未被释放。我尝试了三次,且三次均在不同时期停止迭代。发生以上情况的原因可能是什么呢? 期待您的回复,谢谢。 [email protected]
你好,这份代码我跑过很多几次,没有出现过中途停止迭代的情况。请问能否将错误信息贴出来呢,或许我能提供一些浅显的建议。对于,GPU未释放的问题,我经常碰到,这似乎是pytorch本身的问题,这需要我们手动杀死占用GPU的进程才可以(应该会显示GPU占用率是100%)。运行nvidia-smi,就能找到对应的GPU进程Id,kill -9 id 杀死即可。
感谢您的回复。我遇到的情况是不在迭代,但是代码并未终止,所以没有错误信息。以下图片是其中一次失败例子,在11:00时不再更新。
------------------ 原始邮件 ------------------ 发件人: "QWTforGithub/PUDM" @.>; 发送时间: 2024年10月13日(星期天) 下午2:25 @.>; @.@.>; 主题: Re: [QWTforGithub/PUDM] 网络训练时迭代停止 (Issue #11)
你好,这份代码我跑过很多几次,没有出现过中途停止迭代的情况。请问能否将错误信息贴出来呢,或许我能提供一些浅显的建议。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
我没有看到图片啊。请问,推理可以正常进行吗?
不好意思,我重新粘贴了图片在下面的地址:
非常抱歉,最近在赶deadline,有一些忙,回复地比较晚。这似乎是在跑你自己的数据集是吗。如果是在跑自己的数据集的话,我建议首先先花几个小时在PUGAN或者PU1K上做一下推理和训练,代码没出现问题的话,继续跑自己的数据集。如果有问题,那么大概率是环境没有配置好。然后,你的数据输入格式是condition [B,N,3]以及Ground Truth [B,rN,3]吗?r是倍率,比如4倍率,稀疏点是2048个点,那么Ground Truth应该是[B,8192,3]。可以参考一下这个问题:#10
感谢您,我尝试一下