Yan Huang
Yan Huang
作者您好,我对模型训练后再进行测试的结果与您论文中所得到的结果相差较大,由于显存的限制,我把两个阶段中的max_txt_len和image_size都改小了,iters_per_epoch给的值是5000,经过两轮训练之后四个评估指标都只有79左右,与论文中的90.36还存在一定的差距,因此有几个问题想请教一下您: 1、是否是因为我改动了这些参数从而对最终的结果造成了很大的影响? 2、如果要在4张24G的显卡上跑训练的话这些参数设置为什么值才能成功复现您论文中的结果? 3、您论文中MER2024-OV的实验结果是直接用的经过MER2023-SEMI数据集微调后的模型吗?还是说您是重新使用了MER2024-OV对模型进行微调,然后再进行测试的吗? 以下文件是我测试的结果和第一阶段第二阶段的log文件  [log.txt](https://github.com/user-attachments/files/19154771/log.txt) [log_stage2.txt](https://github.com/user-attachments/files/19154787/log_stage2.txt)
作者您好,我现在正在尝试用您训好的MER2024-best这个模型对MER2024这个数据集中已打标签的样本进行情感推理,但我发现无论我用什么样的指令,模型都不会按我指令要求的生成情感描述,只是一味的重复人物的台词,我已按照您的要求对视觉信息和音频信息进行了编码。 想请教一下作者这个会是什么原因导致的,是不是由于论文中提示模板的设计导致模型误以为只需要重复人物的台词就好了?以下是我在做情绪推理时用的指令和模型生成的结果   