使用zero stage 3,模型保存的不是hf直接可以from_pretrain()形式加载，而是几个.pt的分布式模型。该如何操作转化为hf格式的模型，或者如何训练后直接保存为可以直接加载的形式呢

Open zyg18181818 opened this issue 2 years ago • 2 comments

global_step12645中模型保存为： zero_pp_rank_0_mp_rank_00_model_states.pt zero_pp_rank_1_mp_rank_00_model_states.pt zero_pp_rank_2_mp_rank_00_model_states.pt zero_pp_rank_0_mp_rank_00_optim_states.pt zero_pp_rank_1_mp_rank_00_optim_states.pt zero_pp_rank_2_mp_rank_00_optim_states.pt

Jan 15 '24 16:01 zyg18181818

{C6840EA0-4D6B-4e8d-81AA-FC3997701526}

Jan 15 '24 16:01 zyg18181818

查看了一下log，可能是因为最后保存模型时报错：UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.

Jan 16 '24 03:01 zyg18181818