Yan Huang
Yan Huang
百度云又失效了,作者可以再更新一下不
感谢作者耐心的解答,问题已经解决啦
作者大大,抱歉再次打扰您,后续我又用了Emotion-LLaMA.pth这个模型对MER2024这个数据集中已打标签的样本进行情感分类,目前遇到了几个问题想请教一下作者: 1、尽管我在指令中指定让模型输出happy, sad, neutral, angry, worried, surprise中的一类,但是模型还是会重复输入的文本,甚至多次重复人物的台词,如图所示,然后我还去算了一下这个分类的准确度,也是只有0.4763  所用指令如下  然后我又用了MER2024-best这个模型来进行分类,模型最终输出的结果非常不好,类别太多我就没有贴出来了,与官方给的标签相比准确率只有0.3962,效果十分不好。 想请教一下作者您有遇到过类似的问题吗?因为这部分所用到的编码文件是我按照您所给的代码和方法进行编码的,我在想是不是因为这个编码的问题,因为我在别的issue上看到作者您有用checkpoint_best.pth这个模型对已打标签的数据进行评估,准确率也有八十多,但我自己编码后再用checkpoint_best.pth这个模型做评估的时候准确率只有0.3678,结果如下图所示,我感觉大概率是这个编码的问题。请问作者方便开源一下这部分的编码文件吗?  2、您在readme中提到checkpoint_best.pth这个模型在MER-NOISE这个赛道的F1-score为84.52,后续我也跑了相关的实验,复现的结果和您给的结果差不多,但我有个疑问是,您对mer2024没有打标签的数据是怎么打的标签呢?是按您在emotion-llama这篇论文所提到的那样通过检测AU将伪标签分给视频段的吗? 3、后续我又尝试了用checkpoint_best.pth这个模型对MER2024_NOISE中两万个样本进行评估,最后的准确率在70左右,F1-score为71.37,结果如下图所示。想请问作者你们之前有对这两万个样本做过实验吗? 
> 1.编码文件指的是特征吗?我们都开源了相关特征: > > > https://drive.google.com/drive/folders/1ModyjVKWcWjsacrChDkaTSLpWjnC_lo8?usp=sharing > > 2.对于mer2024数据中无标签的数据样本,我们是使用MER2024-baseline中的代码,融合7-8个多模态特征,进行情绪类别分类,将分类结果作为伪标签。即我们训练了baseline模型来打伪标签。更具体的,我们先用baseline模型打伪标签用于训练Emotion-LLaMA,再用Emotion-LLaMA打伪标签反过来训练baseline模型,就这样迭代大概两轮后,分数就提升不上去了。 > > 3.我们就是对无标签的两万个样本打伪标签。F1-score为71.37的分数是MER2024-Noise测试集的分数吗? 感谢作者的耐心解答,真的让我备受鼓舞,我近期是在尝试对mer2024中有标签的数据样本进行评估,然后跑出来的结果不太理想,因此就在想大概率应该就是我所提取的特征有问题,刚好我在别的issue上看到别的同学也遇到过这个问题https://github.com/ZebangCheng/Emotion-LLaMA/issues/44#issuecomment-2658151957 作者您所分享的这个特征如果我没看错的话应该是mer2024中没打标签的20000个样本的特征,我目前所需要的是mer2024中5030个已有标签的样本的特征,不知道作者您是否方便分享一下这部分的特征~~~///(^v^)\\\~~~ F1-score为71.37的分数是我用checkpoint_best.pth对MER2024-Noise中那20000个样本进行评估所得到的分数
感谢作者那么忙还抽出时间回复我,我后续又尝试了在24g上对模型进行训练,按您之前所设定的参数是无法跑动的,我是将max_txt_len调成了256,image_size调成了224才勉强训动,最终的实验结果在88左右,和您论文中的数据差了2个点,我想这大概率是因为我把图片改小了从而影响了性能,如果按您在论文中所提到的硬件设备来训的话要达到论文中的数据应该是没问题的。 以下图片是我所记录的复现结果,第一行是您论文中的数据,第二行是我用您训好的checkpoint跑的,第三行是我在4张24GB的显卡上训的模型跑的结果 
> > 感谢作者那么忙还抽出时间回复我,我后续又尝试了在24g上对模型进行训练,按您之前所设定的参数是无法跑动的,我是将max_txt_len调成了256,image_size调成了224才勉强训动,最终的实验结果在88左右,和您论文中的数据差了2个点,我想这大概率是因为我把图片改小了从而影响了性能,如果按您在论文中所提到的硬件设备来训的话要达到论文中的数据应该是没问题的。 > > 以下图片是我所记录的复现结果,第一行是您论文中的数据,第二行是我用您训好的checkpoint跑的,第三行是我在4张24GB的显卡上训的模型跑的结果 > >  > > 您好,请问您方便分享这个最终结果的log.txt和log_stage2.txt吗,我也是24g显存想复现实验结果 您好,下面是我的文件,我是选了第一阶段表现最好的checkpoint再进行第二阶段的训练的 [log_stage1.txt](https://github.com/user-attachments/files/19515002/log_stage1.txt) [log_stage2.txt](https://github.com/user-attachments/files/19515003/log_stage2.txt)