the End of the Universe
the End of the Universe
> inference_vllm中的request_list把所有数据集的内容传入. List[Dict[str, str]] 请问自己的训练数据集应该如何传入呢?这个脚本好像只是传入推理数据集的脚本。
另外群二维码过期了。请求老师再放一张新的群二维码。
我有个问题请教一下老师: - 问题描述:如果我使用了HF格式的中文Alpaca/Alpaca-Plus+中文Alpaca的tokenizer(49954)进行预训练,我是该准备指令数据还是txt数据,我在wiki-预训练脚本中看到追加训练是支持在指令模型上继续训练的,但是我没搞懂在这样的指令模型基础上准备txt数据继续追加训练是否合理,如果合理,是不是就意味着,即使我在指令模型上做了追加txt数据做训练后,依然再可以继续在预训练的基础上继续执行进一步的指令微调。 - 期待得到老师的答复,感恩。 @ymcui - ~~另外,我想请问老师的是:现在已经有了Chinese-Alpaca模型,它的词表是49954,~~
> 感恩老师。 我已经清楚了。我确实打算只采用追加数据进行SFT,没打算在指令模型上进行再训练。只是看到了wiki-预训练脚本这个页面的表格中有支持这个模型,就觉得这个训练方式很奇怪就来请教一下。因此通过老师的答复我知道只是表格中列出来了,但是是不建议这样这样子做的。 - 另外想说的是:wiki中的 alpaca 的plus 和 Chinese Plus 这两个plus让我产生了深深的疑惑。我在参考wiki进行复现的时候,这俩plus我一时没有搞清楚。 其实Chinese-LLaMa这个Plus可以取消,因为仅有一个基于120G的语料的Chinese-LLaMa是被使用的,它也标注一个plus是没必要的,否则wiki里出现的plus 实在是会和alpaca plus 造成误解。
感恩老师的回答。 我在项目中提了一个新的issue的问题。这个问题好像不是代码的问题。是运行配置的问题。是我太菜了,但是我一时没办法解决。我希望能得到老师的帮助,能让我先快速的运行起来。我之后还会再去仔细学习。 感恩老师,期待得到老师的帮助与答复。 原始邮件 发件人:"Yiming Cui"< ***@***.*** >; 发件时间:2023/8/28 16:58 收件人:"ymcui/Chinese-LLaMA-Alpaca"< ***@***.*** >; 抄送人:"zzisbeauty"< ***@***.*** >;"Mention"< ***@***.*** >; 主题:Re: [ymcui/Chinese-LLaMA-Alpaca] 请问run_clm_pt_with_peft中lm_datasets的目录结构是什么~? (Issue #239) 如果在Alpaca系列模型上继续预训练,那么可能会丢失Alpaca模型原有的一些指令跟随和聊天能力。有条件的还是建议在Alpaca继续做指令精调,而不是增量预训练。因为你的提问与本issue关联度较低,如有其他问题,请新建issue。 @zzisbeauty — Reply to this email...
这个主题的验证码确实是过于难输入正确。 我已经提 issue 了,https://github.com/Licoy/wordpress-theme-puock/issues/407#issue-2255668055 就现在这个验证码输入难度,我很难不弃坑。
现在的验证码难输入的一B。 还取消不了 准备弃坑了
> 升级transformers版本 升级到哪个版本呢? 我debug,看着像是peft的问题。 总之我也遇到了这个问题,但是我不知道我该如何修改。
> 这似乎是一个bug,inc/php-captcha.php的第140行 $this->text = strtolower(implode('',$code));把验证码全部转换成了小写,但是生成的验证码图片却仍然包含大写,所以无论怎么输入都不正确。我的临时解决方案是把strtolower函数去掉,或者删除characters中的所有大写字母。 晚上回家试试
> > > 这似乎是一个bug,inc/php-captcha.php的第140行 $this->text = strtolower(implode('',$code));把验证码全部转换成了小写,但是生成的验证码图片却仍然包含大写,所以无论怎么输入都不正确。我的临时解决方案是把strtolower函数去掉,或者删除characters中的所有大写字母。 > > > > > > 这里存储的是小写,用户输入的数据进行验证也是会转成小写,就是为了不区分大小写,你这是背道而驰呀 > > 感谢回复。我的水平有限,也不熟悉php。但是如果不对CaptchaBuilder的create方法做上述修改的话,哪怕图片显示A334这样的显而易见的验证码都无法通过,必须要写成a334才行。我查看了pk_front_login_exec等函数的代码,没有找到将用户输入也转成小写的代码,也许是我有所遗漏或水平不足。不管怎样,我也希望能添加一个关闭验证码的选项。 其实最好的方案是改成简单一个滑块拉到最右的验证码。 方便还有效。