xtuner icon indicating copy to clipboard operation
xtuner copied to clipboard

一些关于步数统计的疑问

Open young-chao opened this issue 1 year ago • 2 comments

在使用其它框架(Megatron-LM、DeepSpeed)训练的时候,一般统一把考虑梯度累积后的batch-size作为真正的单步batch-size,再根据这个batch-size推导训练步数,但是从xtuner训练时的步数显示来看,显然xtuner的步数逻辑不是这样的,这会导致一个问题,当我同时跑多个不同size模型的runs时,由于梯度累积值不同,所有的runs步数无法对齐,在wandb上看的体验很不好,请问有相关的设置可以保证我的步数为考虑梯度累积以后的步数吗?

young-chao avatar Aug 29 '24 14:08 young-chao

你好,请问这个问题解决了吗?

Zoisaang avatar May 06 '25 08:05 Zoisaang

你好,请问这个问题解决了吗?

没有解决,现在还是按梯度累积前的batch-size记录loss的。

young-chao avatar May 12 '25 07:05 young-chao