DiffSynth-Studio icon indicating copy to clipboard operation
DiffSynth-Studio copied to clipboard

使用多卡进行 Full training,遇到 “torch.distributed.DistNetworkError: The client socket has timed out after 1800000ms while trying to connect to”的问题

Open RockyLQ1 opened this issue 9 months ago • 2 comments

这个问题有什么好的办法规避吗?

RockyLQ1 avatar Apr 16 '25 09:04 RockyLQ1

@RockyLQ1 请问是多机训练吗?使用的 GPU 是什么?

Artiprocher avatar Apr 17 '25 07:04 Artiprocher

是单机多卡训练,H20机器。后来减少训练数据就没报错了。。

RockyLQ1 avatar Apr 18 '25 01:04 RockyLQ1