hepj987 issues

Results 4 issues of


                                            hepj987

使用zero3以后的模型加载问题

- 结合此项目的示例方法成功进行预训练、增量训练，推理（generate_chatllama.py放不下，使用的generate_lm_deepspeed.py）环境应该是没有问题的。 - 由于保存的模型都是zero_pp_rank_XX_mp_rank_XX_optim_states.pt和zero_pp_rank_XX_mp_rank_XX_model_states.pt这种格式的，无法利用训练后的模型进行推理、增量训练。利用保存模型路径下的脚本zero_to_fp32.py进行转换python zero_to_fp32.py . pytorch_model.bin - 这里使用的是7B的模型，cpu内存从16G增长到90多G，之后进程就死掉了。目前看着像是cpu内存不够导致的，模型保存文件-best是70多G，请问有什么方法能够转换成bin格式的模型么？ - 同时疑惑，现在可能是自己cpu内存不够导致的进程kill，如果之后用13B 30B 65B的模型（7B保存的模型75G，并且128G的cpu内存都不够用），难道要一直增加cpu内存来解决这个问题嘛。有没有大佬可以可以帮忙解决这个问题，感谢！

多轮对话回答结果的一些疑问

我使用之前512长度版本的模型训练了自己的数据集，用于多伦对话的时候回答的结果都很短。哪怕用一些训练时较长的文本去提问。回答还是很短，远不如训练时的文本长度。也远达不到512这个极限模型长度。一般回答只有十几二十个子，这个问题大家有遇到么？不知道如何解决，求助大佬！

向量化数据库使用中的一些问题

请问一下我再初始化向量数据库的时候成功了，脚本如下：python init_database.py --recreate-vs 其中使用了默认配置，只在model_config.py中修改了MODEL_ROOT_PATH = "/public/RAG/model"为我的本地模型路径，以及bge-large-zh-v1.5为我对应的保存路径 "bge-large-zh-v1.5": "AI-ModelScope/bge-large-zh" 初始化向量数据库显示成功： ![image](https://github.com/chatchat-space/Langchain-Chatchat/assets/117699100/0432e997-6272-42a7-b9bf-27c88d2b1363) LLM模型问答服务正常，但是在使用知识库的时候一直查询不到知识库。对比官方的展示图片发现问题，在管理页面中虽然可以看到初始化的数据文件，但是源文件和向量库都是 × 而不是 √。不知道是哪里出了问题？ ![image](https://github.com/chatchat-space/Langchain-Chatchat/assets/117699100/3c7da929-b3ad-4f47-98b1-85e38a873450) 并且选中其中一个文件以后报如下错误： ![image](https://github.com/chatchat-space/Langchain-Chatchat/assets/117699100/ff97ada8-703a-4b14-82ef-cca4a8a0ce3d) 请问大家在使用中是否遇到同样的问题，是怎么解决的

bug

A question about setting tokens

why set tokenizer.pad_token_id = 0 ？ llama model vocabl pad_token="": 3 ，unk_token="": 0. Why not set it to 3 here? I think it should be set to tokenizer.pad_token_id = 3....