Junpeng Yang
Junpeng Yang
如果使用ds_config配置则会直接超显存
> 您可以选择更高级别的优化,比如 zero-3,或者只能用更多的机器 我能通过降低dtype来运行吗,例如修改为torch.int8。或者还有什么其他可行的方法吗 ``` def load_parallel(model, load_dir): mp_rank = mpu.get_model_parallel_rank() assert mpu.get_model_parallel_world_size() != 1 checkpoint_name = os.path.join(load_dir, f"mp{mpu.get_model_parallel_world_size()}", f"pytorch_model_{mp_rank}.bin") assert os.path.exists(checkpoint_name), f"{checkpoint_name} does not exist." model = load_checkpoint_and_dispatch(model=model, checkpoint=checkpoint_name,...
顺带一提,我在使用llama3-8b-instruct版本在dolly上进行评估时,效果很差,进行sft之后也是,这是什么原因? ``` llama3-8b-instruct test | name: dolly | {'exact_match': 0.2, 'rougeL': 15.956} | lm_loss 2.9603 | avg. gen lenth: 211.836 llama3-8b-instruct-sft test | name: dolly | {'exact_match': 0.0, 'rougeL': 12.5574}...
> > 顺带一提,我在使用llama3-8b-instruct版本在dolly上进行评估时,效果很差,进行sft之后也是,这是什么原因? > > ``` > > llama3-8b-instruct > > test | name: dolly | {'exact_match': 0.2, 'rougeL': 15.956} | lm_loss 2.9603 | avg. gen lenth: 211.836 > >...
> 请问你有load llama3 instruct要求的template吗? 感谢指出,我认为是这个原因,因为我直接使用的原始dolly数据而没有进行template处理
好的 我再尝试一下 > motion_bucket_id 并非最佳,你可以填入 0~127 的任意整数,数值越大,运动幅度越大,但画面崩坏的概率越高