MOSS 微调运行run.sh报错

按照步骤复制之后微调报错 ValueError: The port number of the rendezvous endpoint 'None:None' must be an integer between 0 and 65536. 请问是哪里出问题了吗？

Apr 27 '23 04:04 Aris-z

请问您那边硬件是什么？

Apr 27 '23 05:04 KUANWB

测试这个run.sh的时候用的是四张T4，所以是因为硬件资源不够吗？

Apr 27 '23 05:04 Aris-z

这个问题应该不是显存的问题，但是T4不知道硬件行不行，我这边是8张A100 40g的，报错OOM

Apr 27 '23 05:04 KUANWB

按照步骤复制之后微调报错 ValueError: The port number of the rendezvous endpoint 'None:None' must be an integer between 0 and 65536. 请问是哪里出问题了吗？

检查一下 configs/sft.yaml 文件中的 main_process_ip 和 main_process_port是否被正确指定

Apr 27 '23 05:04 xyltt

按照步骤复制之后微调报错 ValueError: The port number of the rendezvous endpoint 'None:None' must be an integer between 0 and 65536. 请问是哪里出问题了吗？

检查一下 configs/sft.yaml 文件中的 main_process_ip 和 main_process_port是否被正确指定

请问您这两个参数您是怎么设置的呢？

May 04 '23 11:05 ARIELDENG

我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了，程序就不报这个错了，但是会报timeout。请问这个问题您是最后这么解决的

May 04 '23 14:05 lizhidomg

我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了，程序就不报这个错了，但是会报timeout。请问这个问题您是最后这么解决的

main_process_ip如果是单机的话设置127.0.0.1 localhost就行了，如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了

May 05 '23 07:05 Aris-z

我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了，程序就不报这个错了，但是会报timeout。请问这个问题您是最后这么解决的

还有timeout的话可以把num_machines改成1哈，应该是通信等待时间过长timeout捏

May 05 '23 08:05 ARIELDENG

我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了，程序就不报这个错了，但是会报timeout。请问这个问题您是最后这么解决的

main_process_ip如果是单机的话设置127.0.0.1 localhost就行了，如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了

请问，改了配置： num_machines=1 num_processes=$((num_machines * 8)) machine_rank=0

accelerate launch
--config_file ./configs/sft.yaml
--num_processes $num_processes
--num_machines $num_machines
--machine_rank $machine_rank
--deepspeed_multinode_launcher standard finetune_moss.py
--model_name_or_path /web/pretrained_model/moss-moon-003-sft
--data_dir ./SFT_data
--output_dir ./ckpts/moss-moon-003-sft
--log_dir ./train_logs/moss-moon-003-sft
--n_epochs 2
--train_bsz_per_gpu 4
--eval_bsz_per_gpu 4
--learning_rate 0.000015
--eval_step 200
--save_step 2000 以及 command_file: null commands: null compute_environment: LOCAL_MACHINE deepspeed_config: gradient_accumulation_steps: 1 gradient_clipping: 1.0 offload_optimizer_device: none offload_param_device: none zero3_init_flag: true zero3_save_16bit_model: true zero_stage: 3 distributed_type: DEEPSPEED downcast_bf16: 'no' dynamo_backend: 'NO' fsdp_config: {} gpu_ids: null machine_rank: 0 main_process_ip: 127.0.0.1 main_process_port: 0 main_training_function: main megatron_lm_config: {} mixed_precision: fp16 num_machines: 1 num_processes: 8 rdzv_backend: static same_network: true tpu_name: null tpu_zone: null use_cpu: false 报错： TimeoutError: The client socket has timed out after 1800s while trying to connect to (127.0.0.1, 0).

May 06 '23 02:05 hjing100

我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了，程序就不报这个错了，但是会报timeout。请问这个问题您是最后这么解决的

main_process_ip如果是单机的话设置127.0.0.1 localhost就行了，如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了

请问，改了配置： num_machines=1 num_processes=$((num_machines * 8)) machine_rank=0

accelerate launch --config_file ./configs/sft.yaml --num_processes $num_processes --num_machines $num_machines --machine_rank $machine_rank --deepspeed_multinode_launcher standard finetune_moss.py --model_name_or_path /web/pretrained_model/moss-moon-003-sft --data_dir ./SFT_data --output_dir ./ckpts/moss-moon-003-sft --log_dir ./train_logs/moss-moon-003-sft --n_epochs 2 --train_bsz_per_gpu 4 --eval_bsz_per_gpu 4 --learning_rate 0.000015 --eval_step 200 --save_step 2000 以及 command_file: null commands: null compute_environment: LOCAL_MACHINE deepspeed_config: gradient_accumulation_steps: 1 gradient_clipping: 1.0 offload_optimizer_device: none offload_param_device: none zero3_init_flag: true zero3_save_16bit_model: true zero_stage: 3 distributed_type: DEEPSPEED downcast_bf16: 'no' dynamo_backend: 'NO' fsdp_config: {} gpu_ids: null machine_rank: 0 main_process_ip: 127.0.0.1 main_process_port: 0 main_training_function: main megatron_lm_config: {} mixed_precision: fp16 num_machines: 1 num_processes: 8 rdzv_backend: static same_network: true tpu_name: null tpu_zone: null use_cpu: false 报错： TimeoutError: The client socket has timed out after 1800s while trying to connect to (127.0.0.1, 0).

port换个大一点的，我用的是25600

May 06 '23 02:05 Aris-z

我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了，程序就不报这个错了，但是会报timeout。请问这个问题您是最后这么解决的

main_process_ip如果是单机的话设置127.0.0.1 localhost就行了，如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了

请问，改了配置： num_machines=1 num_processes=$((num_machines * 8)) machine_rank=0 accelerate launch --config_file ./configs/sft.yaml --num_processes $num_processes --num_machines $num_machines --machine_rank $machine_rank --deepspeed_multinode_launcher standard finetune_moss.py --model_name_or_path /web/pretrained_model/moss-moon-003-sft --data_dir ./SFT_data --output_dir ./ckpts/moss-moon-003-sft --log_dir ./train_logs/moss-moon-003-sft --n_epochs 2 --train_bsz_per_gpu 4 --eval_bsz_per_gpu 4 --learning_rate 0.000015 --eval_step 200 --save_step 2000 以及 command_file: null commands: null compute_environment: LOCAL_MACHINE deepspeed_config: gradient_accumulation_steps: 1 gradient_clipping: 1.0 offload_optimizer_device: none offload_param_device: none zero3_init_flag: true zero3_save_16bit_model: true zero_stage: 3 distributed_type: DEEPSPEED downcast_bf16: 'no' dynamo_backend: 'NO' fsdp_config: {} gpu_ids: null machine_rank: 0 main_process_ip: 127.0.0.1 main_process_port: 0 main_training_function: main megatron_lm_config: {} mixed_precision: fp16 num_machines: 1 num_processes: 8 rdzv_backend: static same_network: true tpu_name: null tpu_zone: null use_cpu: false 报错： TimeoutError: The client socket has timed out after 1800s while trying to connect to (127.0.0.1, 0).

port换个大一点的，我用的是25600

127.0.0.1改成localhost，0改成了五位数的，这个问题解决了，感谢

May 06 '23 02:05 hjing100

我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了，程序就不报这个错了，但是会报timeout。请问这个问题您是最后这么解决的

main_process_ip如果是单机的话设置127.0.0.1 localhost就行了，如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了

请问，改了配置： num_machines=1 num_processes=$((num_machines * 8)) machine_rank=0 accelerate launch --config_file ./configs/sft.yaml --num_processes $num_processes --num_machines $num_machines --machine_rank $machine_rank --deepspeed_multinode_launcher standard finetune_moss.py --model_name_or_path /web/pretrained_model/moss-moon-003-sft --data_dir ./SFT_data --output_dir ./ckpts/moss-moon-003-sft --log_dir ./train_logs/moss-moon-003-sft --n_epochs 2 --train_bsz_per_gpu 4 --eval_bsz_per_gpu 4 --learning_rate 0.000015 --eval_step 200 --save_step 2000 以及 command_file: null commands: null compute_environment: LOCAL_MACHINE deepspeed_config: gradient_accumulation_steps: 1 gradient_clipping: 1.0 offload_optimizer_device: none offload_param_device: none zero3_init_flag: true zero3_save_16bit_model: true zero_stage: 3 distributed_type: DEEPSPEED downcast_bf16: 'no' dynamo_backend: 'NO' fsdp_config: {} gpu_ids: null machine_rank: 0 main_process_ip: 127.0.0.1 main_process_port: 0 main_training_function: main megatron_lm_config: {} mixed_precision: fp16 num_machines: 1 num_processes: 8 rdzv_backend: static same_network: true tpu_name: null tpu_zone: null use_cpu: false 报错： TimeoutError: The client socket has timed out after 1800s while trying to connect to (127.0.0.1, 0).

port换个大一点的，我用的是25600

想请教一下，A100 64GGPU可以微调fnlp/moss-moon-003-sft-int8吗？还有，可以我自己实现Lora微调吗？

May 06 '23 02:05 hjing100