starrism

Results 6 comments of starrism

If you have solved it, could you tell me the solution?

Hi, Have you solved this problem? I have the same problem. Can you give me some help? thanks a lot !!!

@cswry 我也对如何制作数据集有一些疑问,在复现时微调RAM模型,发现模型无法收敛,请问是数据集制作的问题还是微调过程中有一些技巧呢?如果能答复的话,那非常感谢。

也许你有尝试训练DAPE的微调吗?它能够收敛吗?

> > @cswry 我也对如何制作数据集有一些疑问,在复现时微调RAM模型,发现模型无法收敛,请问是数据集制作的问题还是微调过程中有一些技巧呢?如果能答复的话,那非常感谢。 > > 你好,可以提供更详细的训练信息吗?比如使用什么数据集微调RAM,batch size大小,以及验证集的表现 感谢回复,训练DAPE使用的数据集是coco_2017,训练时batchsize=32, lr=1e-4,测试时权重基本在几百次迭代后输出的promp就会变为null或固定的单词(一直训练了50k 迭代),从训练损失来看,模型也没有收敛,损失基本维持在l_feat≈0.25,l_logits≈0.5

> > > > @cswry 我也对如何制作数据集有一些疑问,在复现时微调RAM模型,发现模型无法收敛,请问是数据集制作的问题还是微调过程中有一些技巧呢?如果能答复的话,那非常感谢。 > > > > > > > > > 你好,可以提供更详细的训练信息吗?比如使用什么数据集微调RAM,batch size大小,以及验证集的表现 > > > > > > 感谢回复,训练DAPE使用的数据集是coco_2017,训练时batchsize=32, lr=1e-4,测试时权重基本在几百次迭代后输出的promp就会变为null或固定的单词(一直训练了50k 迭代),从训练损失来看,模型也没有收敛,损失基本维持在l_feat≈0.25,l_logits≈0.5 > > 你使用的训练设置和我们基本一致。这可能是迭代次数的问题,我们微调了20K iter。你可以检查一下20K...