caodixy
caodixy
i have same problem with you @acube3 , did you reslove ?
非常感谢,可以用了 @Dominic789654 ,不过我看到 之前有个 帖子 https://github.com/OptimalScale/LMFlow/issues/218 ,提到他们目前放弃了 这种 eval 的方案,可是我试用了下还是可以输出 验证集的Loss的,你知道为什么吗 @shizhediao
我已经加了end_string "###" ,并且在prompt_structure 中也设置了,Lora训练的data中每句结尾也加了 ###,为什么会这样呢
CUDA_VISIBLE_DEVICES=0 \ deepspeed examples/chatbot.py \ --deepspeed configs/ds_config_chatbot.json \ --use_ram_optimized_load False\ --model_name_or_path ${model} \ --max_new_tokens 100 \ --prompt_structure "A chat between a curious human and an artificial intelligence assistant. The assistant...
我为了避免训练数据有误,我把lora去掉了,用了你们提供的整合的robin v2模型,但是还是出现 同样的问题 
我尝试在text-generation-webui项目中运行了这个模型,运行的很好,我觉得lmflow的 chat代码应该是有些bug的,基本上对话不超过三句就会出现无法回答或者胡言乱语
你这个上面prompt写的###,下面end_string 写的#,这什么意思,到底end_string是#还是###
我跟你们差不多,微调后问题比较大,可以一起交流
> ###Human: {input_text}###Assistant:   我按照你说的设置了end_string以及prompt,比之前好了点,但是多问几个问题,还是出现了重复,但是我用text-generation-webui (在github搜到)来运行这个模型,对话20句也不会出现重复,我觉得chatbot代码还是有点问题的 @shizhediao
我用的没有微调的模型 @Shelton1013