MOSS icon indicating copy to clipboard operation
MOSS copied to clipboard

微调运行run.sh报错

Open Aris-z opened this issue 2 years ago • 12 comments

按照步骤复制之后微调报错 ValueError: The port number of the rendezvous endpoint 'None:None' must be an integer between 0 and 65536. 请问是哪里出问题了吗?

Aris-z avatar Apr 27 '23 04:04 Aris-z

请问您那边硬件是什么?

KUANWB avatar Apr 27 '23 05:04 KUANWB

测试这个run.sh的时候用的是四张T4,所以是因为硬件资源不够吗?

Aris-z avatar Apr 27 '23 05:04 Aris-z

这个问题应该不是显存的问题,但是T4不知道硬件行不行,我这边是8张A100 40g的,报错OOM

KUANWB avatar Apr 27 '23 05:04 KUANWB

按照步骤复制之后微调报错 ValueError: The port number of the rendezvous endpoint 'None:None' must be an integer between 0 and 65536. 请问是哪里出问题了吗?

检查一下 configs/sft.yaml 文件中的 main_process_ipmain_process_port是否被正确指定

xyltt avatar Apr 27 '23 05:04 xyltt

按照步骤复制之后微调报错 ValueError: The port number of the rendezvous endpoint 'None:None' must be an integer between 0 and 65536. 请问是哪里出问题了吗?

检查一下 configs/sft.yaml 文件中的 main_process_ipmain_process_port是否被正确指定

请问您这两个参数您是怎么设置的呢?

ARIELDENG avatar May 04 '23 11:05 ARIELDENG

我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的

lizhidomg avatar May 04 '23 14:05 lizhidomg

我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的

main_process_ip如果是单机的话设置127.0.0.1 localhost就行了,如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了

Aris-z avatar May 05 '23 07:05 Aris-z

我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的

还有timeout的话可以把num_machines改成1哈,应该是通信等待时间过长timeout捏

ARIELDENG avatar May 05 '23 08:05 ARIELDENG

我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的

main_process_ip如果是单机的话设置127.0.0.1 localhost就行了,如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了

请问,改了配置: num_machines=1 num_processes=$((num_machines * 8)) machine_rank=0

accelerate launch
--config_file ./configs/sft.yaml
--num_processes $num_processes
--num_machines $num_machines
--machine_rank $machine_rank
--deepspeed_multinode_launcher standard finetune_moss.py
--model_name_or_path /web/pretrained_model/moss-moon-003-sft
--data_dir ./SFT_data
--output_dir ./ckpts/moss-moon-003-sft
--log_dir ./train_logs/moss-moon-003-sft
--n_epochs 2
--train_bsz_per_gpu 4
--eval_bsz_per_gpu 4
--learning_rate 0.000015
--eval_step 200
--save_step 2000 以及 command_file: null commands: null compute_environment: LOCAL_MACHINE deepspeed_config: gradient_accumulation_steps: 1 gradient_clipping: 1.0 offload_optimizer_device: none offload_param_device: none zero3_init_flag: true zero3_save_16bit_model: true zero_stage: 3 distributed_type: DEEPSPEED downcast_bf16: 'no' dynamo_backend: 'NO' fsdp_config: {} gpu_ids: null machine_rank: 0 main_process_ip: 127.0.0.1 main_process_port: 0 main_training_function: main megatron_lm_config: {} mixed_precision: fp16 num_machines: 1 num_processes: 8 rdzv_backend: static same_network: true tpu_name: null tpu_zone: null use_cpu: false 报错: TimeoutError: The client socket has timed out after 1800s while trying to connect to (127.0.0.1, 0).

hjing100 avatar May 06 '23 02:05 hjing100

我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的

main_process_ip如果是单机的话设置127.0.0.1 localhost就行了,如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了

请问,改了配置: num_machines=1 num_processes=$((num_machines * 8)) machine_rank=0

accelerate launch --config_file ./configs/sft.yaml --num_processes $num_processes --num_machines $num_machines --machine_rank $machine_rank --deepspeed_multinode_launcher standard finetune_moss.py --model_name_or_path /web/pretrained_model/moss-moon-003-sft --data_dir ./SFT_data --output_dir ./ckpts/moss-moon-003-sft --log_dir ./train_logs/moss-moon-003-sft --n_epochs 2 --train_bsz_per_gpu 4 --eval_bsz_per_gpu 4 --learning_rate 0.000015 --eval_step 200 --save_step 2000 以及 command_file: null commands: null compute_environment: LOCAL_MACHINE deepspeed_config: gradient_accumulation_steps: 1 gradient_clipping: 1.0 offload_optimizer_device: none offload_param_device: none zero3_init_flag: true zero3_save_16bit_model: true zero_stage: 3 distributed_type: DEEPSPEED downcast_bf16: 'no' dynamo_backend: 'NO' fsdp_config: {} gpu_ids: null machine_rank: 0 main_process_ip: 127.0.0.1 main_process_port: 0 main_training_function: main megatron_lm_config: {} mixed_precision: fp16 num_machines: 1 num_processes: 8 rdzv_backend: static same_network: true tpu_name: null tpu_zone: null use_cpu: false 报错: TimeoutError: The client socket has timed out after 1800s while trying to connect to (127.0.0.1, 0).

port换个大一点的,我用的是25600

Aris-z avatar May 06 '23 02:05 Aris-z

我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的

main_process_ip如果是单机的话设置127.0.0.1 localhost就行了,如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了

请问,改了配置: num_machines=1 num_processes=$((num_machines * 8)) machine_rank=0 accelerate launch --config_file ./configs/sft.yaml --num_processes $num_processes --num_machines $num_machines --machine_rank $machine_rank --deepspeed_multinode_launcher standard finetune_moss.py --model_name_or_path /web/pretrained_model/moss-moon-003-sft --data_dir ./SFT_data --output_dir ./ckpts/moss-moon-003-sft --log_dir ./train_logs/moss-moon-003-sft --n_epochs 2 --train_bsz_per_gpu 4 --eval_bsz_per_gpu 4 --learning_rate 0.000015 --eval_step 200 --save_step 2000 以及 command_file: null commands: null compute_environment: LOCAL_MACHINE deepspeed_config: gradient_accumulation_steps: 1 gradient_clipping: 1.0 offload_optimizer_device: none offload_param_device: none zero3_init_flag: true zero3_save_16bit_model: true zero_stage: 3 distributed_type: DEEPSPEED downcast_bf16: 'no' dynamo_backend: 'NO' fsdp_config: {} gpu_ids: null machine_rank: 0 main_process_ip: 127.0.0.1 main_process_port: 0 main_training_function: main megatron_lm_config: {} mixed_precision: fp16 num_machines: 1 num_processes: 8 rdzv_backend: static same_network: true tpu_name: null tpu_zone: null use_cpu: false 报错: TimeoutError: The client socket has timed out after 1800s while trying to connect to (127.0.0.1, 0).

port换个大一点的,我用的是25600

127.0.0.1改成localhost,0改成了五位数的,这个问题解决了,感谢

hjing100 avatar May 06 '23 02:05 hjing100

我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的

main_process_ip如果是单机的话设置127.0.0.1 localhost就行了,如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了

请问,改了配置: num_machines=1 num_processes=$((num_machines * 8)) machine_rank=0 accelerate launch --config_file ./configs/sft.yaml --num_processes $num_processes --num_machines $num_machines --machine_rank $machine_rank --deepspeed_multinode_launcher standard finetune_moss.py --model_name_or_path /web/pretrained_model/moss-moon-003-sft --data_dir ./SFT_data --output_dir ./ckpts/moss-moon-003-sft --log_dir ./train_logs/moss-moon-003-sft --n_epochs 2 --train_bsz_per_gpu 4 --eval_bsz_per_gpu 4 --learning_rate 0.000015 --eval_step 200 --save_step 2000 以及 command_file: null commands: null compute_environment: LOCAL_MACHINE deepspeed_config: gradient_accumulation_steps: 1 gradient_clipping: 1.0 offload_optimizer_device: none offload_param_device: none zero3_init_flag: true zero3_save_16bit_model: true zero_stage: 3 distributed_type: DEEPSPEED downcast_bf16: 'no' dynamo_backend: 'NO' fsdp_config: {} gpu_ids: null machine_rank: 0 main_process_ip: 127.0.0.1 main_process_port: 0 main_training_function: main megatron_lm_config: {} mixed_precision: fp16 num_machines: 1 num_processes: 8 rdzv_backend: static same_network: true tpu_name: null tpu_zone: null use_cpu: false 报错: TimeoutError: The client socket has timed out after 1800s while trying to connect to (127.0.0.1, 0).

port换个大一点的,我用的是25600

想请教一下,A100 64GGPU可以微调fnlp/moss-moon-003-sft-int8吗? 还有,可以我自己实现Lora微调吗?

hjing100 avatar May 06 '23 02:05 hjing100