MrQinlala

Results 5 comments of MrQinlala

> 您好,对于第一个问题,请问运行`run_eval.sh`的时候是否传入的是CKPT的绝对路径呢?如果不是可能需要改为绝对路径。对于第二个问题,我们当前训练脚本设置为后台运行,执行后程序会后台运行,终端不会输出信息,而是会将输出信息打印到一个log文件里,您可以在{your_work_dir}/outputs/gpt2/gpt2-base/sft/...下找到该文件 收到您的回复了 真的很有帮助 但我现在还有几个问题可以麻烦您帮忙解答一下吗, 一是我注意到您的代码中是通过criterion来将不同消融类传递到model中进行微调?所以整个项目是在微调的过程中完成蒸馏的吗 不知我的理解是否有误 第二点我想请问一下如果我现在想测试一个新的蒸馏方法需要做哪些方面的修改呢,或者说传递给Model(criterion)时,criterion编写原则是只需要该criterion类有一个foward函数然后通过 loss, logging_output = model( criterion, batch, logging_output, loss_denom)前向传播的时候自动执行该forward函数吗 第三点是我看项目使用的数据其中一项是Dolly貌似是你们自己做的数据集 请问一下在基准评估中使用的数据集只需将数据集按照{instruction,prompt,input,output}格式处理在运行测评脚本就可以了吗,例如我想使用C-eval数据集直接将数据处理为该格式后就可以进行测评了吗 最后一点是想问一下我在训练过程中想中途停止应该怎么做呢 我在linux环境下终端输入ctrld ctrlc 都没用 最后只能重启终端kill进程 请问又别的方法吗 这是我的四个问题 再次麻烦您解答一下可以嘛!

> > > 您好,对于第一个问题,请问运行`run_eval.sh`的时候是否传入的是CKPT的绝对路径呢?如果不是可能需要改为绝对路径。对于第二个问题,我们当前训练脚本设置为后台运行,执行后程序会后台运行,终端不会输出信息,而是会将输出信息打印到一个log文件里,您可以在{your_work_dir}/outputs/gpt2/gpt2-base/sft/...下找到该文件 > > > > > > 收到您的回复了 真的很有帮助 但我现在还有几个问题可以麻烦您帮忙解答一下吗, 一是我注意到您的代码中是通过criterion来将不同消融类传递到model中进行微调?所以整个项目是在微调的过程中完成蒸馏的吗 不知我的理解是否有误 第二点我想请问一下如果我现在想测试一个新的蒸馏方法需要做哪些方面的修改呢,或者说传递给Model(criterion)时,criterion编写原则是只需要该criterion类有一个foward函数然后通过 loss, logging_output = model( criterion, batch, logging_output, loss_denom)前向传播的时候自动执行该forward函数吗 第三点是我看项目使用的数据其中一项是Dolly貌似是你们自己做的数据集 请问一下在基准评估中使用的数据集只需将数据集按照{instruction,prompt,input,output}格式处理在运行测评脚本就可以了吗,例如我想使用C-eval数据集直接将数据处理为该格式后就可以进行测评了吗 最后一点是想问一下我在训练过程中想中途停止应该怎么做呢 我在linux环境下终端输入ctrld ctrlc 都没用...

您好 我最近一直在调试这个项目 尤其是在criterions项目下新增了一个蒸馏类 方法基本和dskd_with_cma一样 且温度参数也是通过命令行OPTS设置为2 但为什么我将温度打印到日志文件的时候温度一直在改变 且值一直在0.003的某个区间震荡呢 请问是什么地方发生了温度的变化呢

> > 您好 我最近一直在调试这个项目 尤其是在criterions项目下新增了一个蒸馏类 方法基本和dskd_with_cma一样 且温度参数也是通过命令行OPTS设置为2 但为什么我将温度打印到日志文件的时候温度一直在改变 且值一直在0.003的某个区间震荡呢 请问是什么地方发生了温度的变化呢 > > 可以提供一下log文件吗 ch 020: 49 / 1429 global_step=27200, loss=0.3160, nll_loss=0.0102, kd_loss=0.6218, accuracy=0.9975, micro_step_time=0.3571, step_time=0.7172, kd_temp=0.0076, tea_temp=0.0191, t2s_ce_loss=0.0020, t2s_acc=0.9996, max_t2s_prob=0.9986,...

好的 麻烦您啦 我还有个问题 请问在测试集的选择上 我看见你们用的部分数据集例如sinst和uinst分为了图里面的样子 请问你们是只用了其中某一个文件下下面的还是遍历了所有文件下的数据呢 ![Image](https://github.com/user-attachments/assets/cd1c95e9-3b5b-475e-b3e3-8c192f94fa57)