hepj987
hepj987
- 结合此项目的示例方法成功进行预训练、增量训练,推理(generate_chatllama.py放不下,使用的generate_lm_deepspeed.py)环境应该是没有问题的。 - 由于保存的模型都是zero_pp_rank_XX_mp_rank_XX_optim_states.pt和zero_pp_rank_XX_mp_rank_XX_model_states.pt这种格式的,无法利用训练后的模型进行 推理 、增量训练。利用保存模型路径下的脚本zero_to_fp32.py进行转换python zero_to_fp32.py . pytorch_model.bin - 这里使用的是7B的模型,cpu内存从16G增长到90多G,之后进程就死掉了。目前看着像是cpu内存不够导致的,模型保存文件-best是70多G,请问有什么方法能够转换成bin格式的模型么? - 同时疑惑,现在可能是自己cpu内存不够导致的进程kill,如果之后用13B 30B 65B的模型(7B保存的模型75G,并且128G的cpu内存都不够用),难道要一直增加cpu内存来解决这个问题嘛。有没有大佬可以可以帮忙解决这个问题,感谢!
我使用之前512长度版本的模型训练了自己的数据集,用于多伦对话的时候回答的结果都很短。哪怕用一些训练时较长的文本去提问。回答还是很短,远不如训练时的文本长度。也远达不到512这个极限模型长度。一般回答只有十几二十个子,这个问题大家有遇到么?不知道如何解决,求助大佬!
请问一下我再初始化向量数据库的时候成功了, 脚本如下:python init_database.py --recreate-vs 其中使用了默认配置,只在model_config.py中修改了MODEL_ROOT_PATH = "/public/RAG/model"为我的本地模型路径,以及bge-large-zh-v1.5为我对应的保存路径 "bge-large-zh-v1.5": "AI-ModelScope/bge-large-zh" 初始化向量数据库显示成功:  LLM模型问答服务正常,但是在使用知识库的时候一直查询不到知识库。 对比官方的展示图片发现问题,在管理页面中虽然可以看到初始化的数据文件,但是源文件和向量库 都是 × 而不是 √。不知道是哪里出了问题?  并且选中其中一个文件以后报如下错误:  请问大家在使用中是否遇到同样的问题,是怎么解决的
why set tokenizer.pad_token_id = 0 ? llama model vocabl pad_token="": 3 ,unk_token="": 0. Why not set it to 3 here? I think it should be set to tokenizer.pad_token_id = 3....