微调运行run.sh报错
按照步骤复制之后微调报错 ValueError: The port number of the rendezvous endpoint 'None:None' must be an integer between 0 and 65536. 请问是哪里出问题了吗?
请问您那边硬件是什么?
测试这个run.sh的时候用的是四张T4,所以是因为硬件资源不够吗?
这个问题应该不是显存的问题,但是T4不知道硬件行不行,我这边是8张A100 40g的,报错OOM
按照步骤复制之后微调报错 ValueError: The port number of the rendezvous endpoint 'None:None' must be an integer between 0 and 65536. 请问是哪里出问题了吗?
检查一下 configs/sft.yaml 文件中的 main_process_ip 和 main_process_port是否被正确指定
按照步骤复制之后微调报错 ValueError: The port number of the rendezvous endpoint 'None:None' must be an integer between 0 and 65536. 请问是哪里出问题了吗?
检查一下
configs/sft.yaml文件中的main_process_ip和main_process_port是否被正确指定
请问您这两个参数您是怎么设置的呢?
我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的
我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的
main_process_ip如果是单机的话设置127.0.0.1 localhost就行了,如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了
我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的
还有timeout的话可以把num_machines改成1哈,应该是通信等待时间过长timeout捏
我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的
main_process_ip如果是单机的话设置127.0.0.1 localhost就行了,如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了
请问,改了配置: num_machines=1 num_processes=$((num_machines * 8)) machine_rank=0
accelerate launch
--config_file ./configs/sft.yaml
--num_processes $num_processes
--num_machines $num_machines
--machine_rank $machine_rank
--deepspeed_multinode_launcher standard finetune_moss.py
--model_name_or_path /web/pretrained_model/moss-moon-003-sft
--data_dir ./SFT_data
--output_dir ./ckpts/moss-moon-003-sft
--log_dir ./train_logs/moss-moon-003-sft
--n_epochs 2
--train_bsz_per_gpu 4
--eval_bsz_per_gpu 4
--learning_rate 0.000015
--eval_step 200
--save_step 2000
以及
command_file: null
commands: null
compute_environment: LOCAL_MACHINE
deepspeed_config:
gradient_accumulation_steps: 1
gradient_clipping: 1.0
offload_optimizer_device: none
offload_param_device: none
zero3_init_flag: true
zero3_save_16bit_model: true
zero_stage: 3
distributed_type: DEEPSPEED
downcast_bf16: 'no'
dynamo_backend: 'NO'
fsdp_config: {}
gpu_ids: null
machine_rank: 0
main_process_ip: 127.0.0.1
main_process_port: 0
main_training_function: main
megatron_lm_config: {}
mixed_precision: fp16
num_machines: 1
num_processes: 8
rdzv_backend: static
same_network: true
tpu_name: null
tpu_zone: null
use_cpu: false
报错:
TimeoutError: The client socket has timed out after 1800s while trying to
connect to (127.0.0.1, 0).
我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的
main_process_ip如果是单机的话设置127.0.0.1 localhost就行了,如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了
请问,改了配置: num_machines=1 num_processes=$((num_machines * 8)) machine_rank=0
accelerate launch --config_file ./configs/sft.yaml --num_processes $num_processes --num_machines $num_machines --machine_rank $machine_rank --deepspeed_multinode_launcher standard finetune_moss.py --model_name_or_path /web/pretrained_model/moss-moon-003-sft --data_dir ./SFT_data --output_dir ./ckpts/moss-moon-003-sft --log_dir ./train_logs/moss-moon-003-sft --n_epochs 2 --train_bsz_per_gpu 4 --eval_bsz_per_gpu 4 --learning_rate 0.000015 --eval_step 200 --save_step 2000 以及 command_file: null commands: null compute_environment: LOCAL_MACHINE deepspeed_config: gradient_accumulation_steps: 1 gradient_clipping: 1.0 offload_optimizer_device: none offload_param_device: none zero3_init_flag: true zero3_save_16bit_model: true zero_stage: 3 distributed_type: DEEPSPEED downcast_bf16: 'no' dynamo_backend: 'NO' fsdp_config: {} gpu_ids: null machine_rank: 0 main_process_ip: 127.0.0.1 main_process_port: 0 main_training_function: main megatron_lm_config: {} mixed_precision: fp16 num_machines: 1 num_processes: 8 rdzv_backend: static same_network: true tpu_name: null tpu_zone: null use_cpu: false 报错: TimeoutError: The client socket has timed out after 1800s while trying to connect to (127.0.0.1, 0).
port换个大一点的,我用的是25600
我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的
main_process_ip如果是单机的话设置127.0.0.1 localhost就行了,如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了
请问,改了配置: num_machines=1 num_processes=$((num_machines * 8)) machine_rank=0 accelerate launch --config_file ./configs/sft.yaml --num_processes $num_processes --num_machines $num_machines --machine_rank $machine_rank --deepspeed_multinode_launcher standard finetune_moss.py --model_name_or_path /web/pretrained_model/moss-moon-003-sft --data_dir ./SFT_data --output_dir ./ckpts/moss-moon-003-sft --log_dir ./train_logs/moss-moon-003-sft --n_epochs 2 --train_bsz_per_gpu 4 --eval_bsz_per_gpu 4 --learning_rate 0.000015 --eval_step 200 --save_step 2000 以及 command_file: null commands: null compute_environment: LOCAL_MACHINE deepspeed_config: gradient_accumulation_steps: 1 gradient_clipping: 1.0 offload_optimizer_device: none offload_param_device: none zero3_init_flag: true zero3_save_16bit_model: true zero_stage: 3 distributed_type: DEEPSPEED downcast_bf16: 'no' dynamo_backend: 'NO' fsdp_config: {} gpu_ids: null machine_rank: 0 main_process_ip: 127.0.0.1 main_process_port: 0 main_training_function: main megatron_lm_config: {} mixed_precision: fp16 num_machines: 1 num_processes: 8 rdzv_backend: static same_network: true tpu_name: null tpu_zone: null use_cpu: false 报错: TimeoutError: The client socket has timed out after 1800s while trying to connect to (127.0.0.1, 0).
port换个大一点的,我用的是25600
127.0.0.1改成localhost,0改成了五位数的,这个问题解决了,感谢
我把configs/sft.yaml 文件中的 main_process_ip 和 main_process_port的俩个null都改成0了,程序就不报这个错了,但是会报timeout。请问这个问题您是最后这么解决的
main_process_ip如果是单机的话设置127.0.0.1 localhost就行了,如果是多机器就按照机器的ip自己设置。 main_process_port就随便指定一下就行了
请问,改了配置: num_machines=1 num_processes=$((num_machines * 8)) machine_rank=0 accelerate launch --config_file ./configs/sft.yaml --num_processes $num_processes --num_machines $num_machines --machine_rank $machine_rank --deepspeed_multinode_launcher standard finetune_moss.py --model_name_or_path /web/pretrained_model/moss-moon-003-sft --data_dir ./SFT_data --output_dir ./ckpts/moss-moon-003-sft --log_dir ./train_logs/moss-moon-003-sft --n_epochs 2 --train_bsz_per_gpu 4 --eval_bsz_per_gpu 4 --learning_rate 0.000015 --eval_step 200 --save_step 2000 以及 command_file: null commands: null compute_environment: LOCAL_MACHINE deepspeed_config: gradient_accumulation_steps: 1 gradient_clipping: 1.0 offload_optimizer_device: none offload_param_device: none zero3_init_flag: true zero3_save_16bit_model: true zero_stage: 3 distributed_type: DEEPSPEED downcast_bf16: 'no' dynamo_backend: 'NO' fsdp_config: {} gpu_ids: null machine_rank: 0 main_process_ip: 127.0.0.1 main_process_port: 0 main_training_function: main megatron_lm_config: {} mixed_precision: fp16 num_machines: 1 num_processes: 8 rdzv_backend: static same_network: true tpu_name: null tpu_zone: null use_cpu: false 报错: TimeoutError: The client socket has timed out after 1800s while trying to connect to (127.0.0.1, 0).
port换个大一点的,我用的是25600
想请教一下,A100 64GGPU可以微调fnlp/moss-moon-003-sft-int8吗? 还有,可以我自己实现Lora微调吗?