nieallen
nieallen
这套代码包含了预训练、rlhf流程,还有lora、qlora技术。真的是很全面了。 但如果可以实现多轮对话构建,比如[q1,a1,q2,a2,q3,a3],构建成训练样本为:prompt:q1*[IGNORE_INDEX]+a1++q2*[IGNORE_INDEX]+a2++q3*[IGNORE_INDEX],response: a3 就更好了哈哈
请问,冻结部分层的话,adam优化器那里不需要修改吗?好像需要Adam(filter(lambda p: p.requires_grad, model.parameters()))
qlora训练的一个报错
ValueError: FP16 Mixed precision training with AMP or APEX (`--fp16`) and FP16 half precision evaluation (`--fp16_full_eval`) can only be used on CUDA devices. 请问这个错误怎么解决?
当我把下面这块模型保存代码移入epoch循环, if args.output_dir is not None: print_rank_0('saving the final model ...', args.global_rank)#It will overwrite the last epoch model model = convert_lora_to_linear_layer(model) if args.global_rank == 0: save_hf_format(model, tokenizer, args) 第一轮会顺利保存,当开始第二轮训练时候,报错信息如下: File...
关于预训练模型
您好,SentiLARE_pretrain_roberta是放的roberta-base模型吗?是需要.bin文件,config.json,vocab.txt吗?
### Reminder - [X] I have read the README and searched the existing issues. ### Reproduction 一个新需求 ### Expected behavior 可以实现蒸馏训练的代码吗?可以选择不同的蒸馏loss,如kl、rkl等。如果自己该,需要改动哪里?CustomSeq2SeqTrainer? ### System Info _No response_ ### Others _No response_
RuntimeError: CUDA error: device-side assert triggered CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1....
如题。目前的rlhf是基于gpt2,且不是instructgpt的那套流程
请问playground每次generate都要加载一次模型?怎么改可以使速度变快一些呢?