Junpeng Yang
Junpeng Yang
  以上参数是否是最佳设置?我通过SVD-xt生成的视频质量较差
我如果想在dolly数据集上进行teacher:llama3-70b-instruct,student:llama3-8b-instruct。的蒸馏,是否需要修改某些代码逻辑或者dolly数据集的template?
我在4张A100上使用4卡模型并行训练,student是llama3-8b,teacher是llama3-70b,使用ds_config_zero2_offload运行成功时4张A100的GPU占用为47g/80g,在训练过程中会出现CUDA out of memory,请问如何解决这一问题 