SwanLab icon indicating copy to clipboard operation
SwanLab copied to clipboard

[BUG] accelerate多卡会重复发送指标

Open ShaohonChen opened this issue 10 months ago • 4 comments

Image

这个错误感谢社区老哥报出,正在修复

ShaohonChen avatar Apr 03 '25 08:04 ShaohonChen

加油,希望早日解决

ParryJay avatar Apr 03 '25 08:04 ParryJay

可以加一个rank的判断

    if rank <= 0:
        project = args.tracker_project_name or "fastvideo"
        swanlab.init(project='distill', config=args , mode='cloud',logdir="/home/tempuser11/botehuang/swanlab")

    if rank <= 0:
        swanlab.log(logs)

KashiwaByte avatar Apr 09 '25 03:04 KashiwaByte

目前我这边测试没有成功找到这个bug T_T。再来transformers我记得里面自动有main进程判断,好像不会出现这种问题。感谢 @KashiwaByte 贡献。我先close了这个issue,如果有新的复现代码再打开 @ParryJay

ShaohonChen avatar Apr 09 '25 04:04 ShaohonChen

Image Image

有反应是使用huggingface案例代码时会有这个bug,开了grad checkpoint后

ShaohonChen avatar Apr 09 '25 04:04 ShaohonChen

已和 accelerate 官方集成

SAKURA-CAT avatar Jul 07 '25 10:07 SAKURA-CAT