Zhenzhong

Results 9 comments of Zhenzhong

训练数据是否可以提供一下,或者描述也可以

非常感谢,能否知道tag任务的训练数据格式呢☺ ---- 回复的原邮件 ---- | 发件人 | ***@***.***> | | 日期 | 2023年10月18日 20:23 | | 收件人 | ***@***.***> | | 抄送至 | ***@***.***>***@***.***> | | 主题 | Re: [yaoxiaoyuan/mimix]...

ok,谢谢

没有报错信息,check_dataset_strategy设置成warning没有打印数据,像是还没开始训练,是卡住了吗 ================================= W0726 18:36:31.897000 140477538637632 torch/distributed/elastic/multiprocessing/api.py:858] Sending process 24503 closing signal SIGTERM W0726 18:36:31.898000 140477538637632 torch/distributed/elastic/multiprocessing/api.py:858] Sending process 24504 closing signal SIGTERM W0726 18:36:31.899000 140477538637632 torch/distributed/elastic/multiprocessing/api.py:858] Sending process 24505 closing...

Error: Failed to get process executable name. Check that the process is running. Reason: No such file or directory (os error 2) Reason: No such file or directory (os error...

> `py-spy dump `可以查看卡在哪了 你看看 这是环境配置的问题吗,似乎在一台机器上也有这个问题

NVIDIA-SMI 535.54.03 Driver Version: 535.54.03 CUDA Version: 12.2 nvcc --version nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2023 NVIDIA Corporation Built on Tue_Aug_15_22:02:13_PDT_2023 Cuda compilation tools, release 12.2, V12.2.140...

然后我使用单机调试时,在训练一开始出现了这个问题: [INFO:swift] The logging file will be saved in: /home/jovyan/dataws1/fine-wenshu/model/qwen2_7b_patent_model/qwen2-7b-instruct/v7-20240727-152355/logging.jsonl Train: 0%| | 0/4 [00:00

export NCCL_P2P_DISABLE=1 export NCCL_IB_DISABLE=1 export NCCL_DEBUG=info export NCCL_SOCKET_IFNAME=eth0 添加了这些解决了单机调试,但多机调试好像和max_length有关,当设置2048的时候成功了,按照原长度的时候是失败的,这是为什么?按理不应该报OOM的错误吗