18600709862
18600709862
Modify or report an error? I guess you have to start over again after modifying the code.
thank you very much for your help!
after modify this line in my local script, can from step one exec, Here we show the scripts to obtain representations from multiple source LLMs for model fusion. Get representations...
多谢您的帮助 目前,不清楚是否qwen需要如此,还是所有模型都需要重新执行, 从第一步1、开始获取每个来源 LLM 的表示 仅仅qwen模型需要处理20小时,其它Mistral模型快一些 2、对齐不同来源法学硕士的表述 3、成对知识融合 目前这一步不成功 现在修改代码后,重新从第一步开始执行
@18907305772 多谢您的回复 已经修改代码,(https://github.com/18907305772/FuseLLM/blob/main/FuseChat/train/data_collator.py#L228)" to vocab_size = len(self.tokenizer.get_vocab()). 目前执行脚本如下: #成对知识融合 # Qwen1.5-7B-Chat Mistral-7B-Instruct-v0.2 export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 torchrun --nproc_per_node=8 --master_port=20001 ./train/train_lora.py \ --model_name_or_path "/media/root/sdc1/data/model/Qwen1.5-7B-Chat" \ --data_path "save_1_2_3/1/0,save_1_2_3/1/1,save_1_2_3/1/2,save_1_2_3/1/3" \ --fp16 True \ --output_dir "save_1_2/model"...
非常感谢您的回复,期待更新的脚本。
去掉所有mcp中包括search的服务,可以跑起来, 然后又会报token限制,本来qwen的max_token9万,然而限制在1万, 估计这两处需要修改默认配置或者默认代码。