PUDM 网络训练时迭代停止

作者您好，首先对您的作品表示感谢。我在对网络尝试训练时遇到了一下问题，想请教您：在训练过程中迭代停止，但是代码并未终止，GPU不在工作且显存并未被释放。我尝试了三次，且三次均在不同时期停止迭代。发生以上情况的原因可能是什么呢？期待您的回复，谢谢。 [email protected]

Oct 13 '24 04:10 yyds-1max

你好，这份代码我跑过很多几次，没有出现过中途停止迭代的情况。请问能否将错误信息贴出来呢，或许我能提供一些浅显的建议。对于，GPU未释放的问题，我经常碰到，这似乎是pytorch本身的问题，这需要我们手动杀死占用GPU的进程才可以（应该会显示GPU占用率是100%）。运行nvidia-smi，就能找到对应的GPU进程Id，kill -9 id 杀死即可。

Oct 13 '24 06:10 QWTforGithub

感谢您的回复。我遇到的情况是不在迭代，但是代码并未终止，所以没有错误信息。以下图片是其中一次失败例子，在11：00时不再更新。

------------------ 原始邮件 ------------------ 发件人: "QWTforGithub/PUDM" @.>; 发送时间: 2024年10月13日(星期天) 下午2:25 @.>; @.@.>; 主题: Re: [QWTforGithub/PUDM] 网络训练时迭代停止 (Issue #11)

你好，这份代码我跑过很多几次，没有出现过中途停止迭代的情况。请问能否将错误信息贴出来呢，或许我能提供一些浅显的建议。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

Oct 14 '24 03:10 yyds-1max

我没有看到图片啊。请问，推理可以正常进行吗？

Oct 14 '24 15:10 QWTforGithub

不好意思，我重新粘贴了图片在下面的地址：迭代停止迭代停止时的GPU

Oct 15 '24 02:10 yyds-1max

非常抱歉，最近在赶deadline，有一些忙，回复地比较晚。这似乎是在跑你自己的数据集是吗。如果是在跑自己的数据集的话，我建议首先先花几个小时在PUGAN或者PU1K上做一下推理和训练，代码没出现问题的话，继续跑自己的数据集。如果有问题，那么大概率是环境没有配置好。然后，你的数据输入格式是condition [B,N,3]以及Ground Truth [B,rN,3]吗？r是倍率，比如4倍率，稀疏点是2048个点，那么Ground Truth应该是[B,8192,3]。可以参考一下这个问题：#10

Oct 15 '24 16:10 QWTforGithub

感谢您，我尝试一下

Oct 16 '24 07:10 yyds-1max