多机多卡微调报错ncclInternalError
微调命令:
bash finetune/finetune_visualglm.sh
代码正常运行到加载模型和tokenizer,之后报错如下:
打印NCCL具体报错信息如下:
请问有人遇到这样的问题嘛?
我加了这两个参数
请确定nccl配置和版本的正确性,是否使用了正确的ib等
请确定nccl配置和版本的正确性,是否使用了正确的ib等 你好,我查看了NCCL的版本,是2.15.2,查看了IB网卡名,显示如下:
![]()
请问正确的版本应该是什么?NCCL_IB_DISABLE已经设置为0
deepspeed多机不是这样指定的,你需要让每个机器知道master_addr是谁,以及master_port也不应该是随机数
问题已解决,是NCCL配置出现问题,缺少socket通信网络设置:
NCCL_SOCKET_IFNAME=eth0
在命令行之前加入以下即可:
export NCCL_IB_DISABLE=1; export NCCL_P2P_DISABLE=1; export NCCL_DEBUG=INFO; export NCCL_SOCKET_IFNAME=eth0
问题已解决,是NCCL配置出现问题,缺少socket通信网络设置:
NCCL_SOCKET_IFNAME=eth0在命令行之前加入以下即可: export NCCL_IB_DISABLE=1; export NCCL_P2P_DISABLE=1; export NCCL_DEBUG=INFO; export NCCL_SOCKET_IFNAME=eth0
您好,如何在.sh完整添加多卡训练呢,我添加了--num_gpus --num_nodels
报错:ValueError: Cannot specify num_nodes/gpus with include/exclude
问题已解决,是NCCL配置出现问题,缺少socket通信网络设置:
NCCL_SOCKET_IFNAME=eth0在命令行之前加入以下即可: export NCCL_IB_DISABLE=1; export NCCL_P2P_DISABLE=1; export NCCL_DEBUG=INFO; export NCCL_SOCKET_IFNAME=eth0您好,如何在.sh完整添加多卡训练呢,我添加了--num_gpus --num_nodels 报错:ValueError: Cannot specify num_nodes/gpus with include/exclude
请问您解决这个问题了吗,我也遇到了这个问题,谢谢。