VisualGLM-6B icon indicating copy to clipboard operation
VisualGLM-6B copied to clipboard

多机多卡微调报错ncclInternalError

Open sunxiaoyu12 opened this issue 2 years ago • 7 comments

微调命令: bash finetune/finetune_visualglm.sh 代码正常运行到加载模型和tokenizer,之后报错如下: image 打印NCCL具体报错信息如下: image

image

请问有人遇到这样的问题嘛?

sunxiaoyu12 avatar Jul 27 '23 09:07 sunxiaoyu12

我加了这两个参数 image

sunxiaoyu12 avatar Jul 27 '23 09:07 sunxiaoyu12

请确定nccl配置和版本的正确性,是否使用了正确的ib等

Sleepychord avatar Jul 29 '23 14:07 Sleepychord

请确定nccl配置和版本的正确性,是否使用了正确的ib等 你好,我查看了NCCL的版本,是2.15.2,查看了IB网卡名,显示如下: 360d72db3af78c9e1c3dd9745c8b45b ac646d0f8f388b611edc9b9d7551ded

请问正确的版本应该是什么?NCCL_IB_DISABLE已经设置为0

sunxiaoyu12 avatar Jul 31 '23 02:07 sunxiaoyu12

deepspeed多机不是这样指定的,你需要让每个机器知道master_addr是谁,以及master_port也不应该是随机数

1049451037 avatar Jul 31 '23 03:07 1049451037

问题已解决,是NCCL配置出现问题,缺少socket通信网络设置: NCCL_SOCKET_IFNAME=eth0 在命令行之前加入以下即可: export NCCL_IB_DISABLE=1; export NCCL_P2P_DISABLE=1; export NCCL_DEBUG=INFO; export NCCL_SOCKET_IFNAME=eth0

sunxiaoyu12 avatar Jul 31 '23 06:07 sunxiaoyu12

问题已解决,是NCCL配置出现问题,缺少socket通信网络设置: NCCL_SOCKET_IFNAME=eth0 在命令行之前加入以下即可: export NCCL_IB_DISABLE=1; export NCCL_P2P_DISABLE=1; export NCCL_DEBUG=INFO; export NCCL_SOCKET_IFNAME=eth0

您好,如何在.sh完整添加多卡训练呢,我添加了--num_gpus --num_nodels
报错:ValueError: Cannot specify num_nodes/gpus with include/exclude

shituo123456 avatar Aug 01 '23 02:08 shituo123456

问题已解决,是NCCL配置出现问题,缺少socket通信网络设置: NCCL_SOCKET_IFNAME=eth0 在命令行之前加入以下即可: export NCCL_IB_DISABLE=1; export NCCL_P2P_DISABLE=1; export NCCL_DEBUG=INFO; export NCCL_SOCKET_IFNAME=eth0

您好,如何在.sh完整添加多卡训练呢,我添加了--num_gpus --num_nodels 报错:ValueError: Cannot specify num_nodes/gpus with include/exclude

请问您解决这个问题了吗,我也遇到了这个问题,谢谢。

corkiyao avatar Sep 09 '24 01:09 corkiyao