SenseVoice icon indicating copy to clipboard operation
SenseVoice copied to clipboard

训练过程中内存占用持续上涨

Open heheda166 opened this issue 9 months ago • 2 comments

模型训练过程中 内存占用持续上涨 直到1个epoch结束 如此循环往复

heheda166 avatar Apr 02 '25 06:04 heheda166

应该是 torch.empty_cache 在每个 epoch 开始, 只要不是持续上涨不下降应该就是正常的。

如果内存不够可以考虑按 batch 来清理内存,每 n 个 batch 清理一次。

MrXnneHang avatar Apr 07 '25 00:04 MrXnneHang

感谢! 我看torch.empty_cache是在每个epoch的每个数据分片训练结束后进行的 默认训练代码的数据分片是1 但我把data_split_num改称8之后,内存还是在每个epoch之后才被释放 而不是每个数据分片之后 @MrXnneHang

heheda166 avatar Apr 08 '25 04:04 heheda166