Hui Tingfeng
Hui Tingfeng
我看代码中有一个train_on_input的参数,我理解的llama这类生成模型如果要做具体的下游任务,比如文本分类,那是不是训练的时候,模型的输入是文本+标签,输出也是文本+标签,而在评估或者测试的过程中,模型的输入是文本,输出是文本+标签,然后自行把标签抽出来算指标。我有一点没看懂这个train_on_input的含义,貌似如果输入有两个feature的话,模型的输入是text+label而输出只有label,可能与我理解的输入输出不一致,可否请教一下这个问题。
Update three papers in methodology, two ACL 2023 papers and one ACL 2022 paper.
Thank you for your amazing work! I use the generate_batch() function which you provide in another issue, when I run my decode code: ``` pred_sents = [ tokenizer.decode( g )...
Thank you for your amazing work! When I debug the source code, I find some tiny mistakes. In prompt_tuner2.py, line 236  I think the second weight_decay should be 0....
您好,感谢您的工作。我想请问一下8张A100 80GB上微调flan-t5-11B原论文是如何设置各项参数的。例如deepspeed选择什么模式,batch_size等等参数