Richard Wen
Richard Wen
@zixiaotan21 您好,请问您试验后内积和L2的结果有什么区别呢?
收到作者召唤 ૮꒰ ˶• ༝ •˶꒱ა 我的提问在 PR 里,但暂无结论 #4224
针对你的问题 1. 我的尝试结果是,微调后的效果 不用 packing > 用 packing >>> neat_packing 2. `data_args.mix_strategy` 参数给了三种不同的多数据源融合方法,可以按照你的需求选 3. 目前 packing 基于贪心背包算法实现高效打包(为了不切分数据),所以可以看作随机挑选 neat_packing 方法在 axolotl、swift、functionary 内均有实现,但我只试了 lf 的,指标确实降低很多,和你说的一样 为了查明原因,我 Debug 了 Qwen2 的 _get_unpad_data() 方法(neat...
@codemayq 感谢您的回复 具体场景是在多卡环境下(且不指定某张单卡),运行至 cli.py 中的这部分时出现的问题(subprocess 执行 torchrun 时),并不是同时起多个 `llamafactory-cli train` 哈 ``` elif command == Command.TRAIN: force_torchrun = os.environ.get("FORCE_TORCHRUN", "0").lower() in ["true", "1"] if force_torchrun or get_device_count() > 1: ```
针对第一个问题,需要把 template 织入 tokenizer 中,代码如下 `get_template_and_fix_tokenizer(tokenizer, name=【template 名称】)` 第二个问题需要改一下 model.generate() 具体实现看源码
你好,我提交了新的 PR 以解决您提到的问题,可以看看 PR
> 差不多的问题,我在template.py里注册了一个模板,能训练但是Loss很奇怪,而且推理的时候却找不到模板,这是什么原因,,我又要如何制定一个template,_register_template( name="jiutian", format_user=StringFormatter(slots=["HUMAN:\n{{content}}\nAssistant:\n"]), format_separator=EmptyFormatter(slots=["\n\n"]), efficient_eos=True, ) 可以参考九天大模型指令微调格式