SwanLab
SwanLab copied to clipboard
[BUG] accelerate多卡会重复发送指标
这个错误感谢社区老哥报出,正在修复
加油,希望早日解决
可以加一个rank的判断
if rank <= 0:
project = args.tracker_project_name or "fastvideo"
swanlab.init(project='distill', config=args , mode='cloud',logdir="/home/tempuser11/botehuang/swanlab")
if rank <= 0:
swanlab.log(logs)
目前我这边测试没有成功找到这个bug T_T。再来transformers我记得里面自动有main进程判断,好像不会出现这种问题。感谢 @KashiwaByte 贡献。我先close了这个issue,如果有新的复现代码再打开 @ParryJay
有反应是使用huggingface案例代码时会有这个bug,开了grad checkpoint后
已和 accelerate 官方集成