maxnotwell
maxnotwell
hi,各位作者好 我在zhihu看到了项目的简介,以及放出的榜单,很感兴趣。 这几天我正在尝试复现这个工作,但是我在base 模型下,coco-cn的评估数据结果和目前公布的数据还有较大的差距,后续会放出训练的细节吗? 我可以先说一下我的训练细节:我是用moco + 对比学习,adam优化器,初始学习率e-4,学习率warm_up + polydecay,4 * 8 a100 多机训练,bs256,大约训练了80w步,目前coco-cn只能到80+。
``` from PIL import Image import requests import clip import torch from transformers import BertTokenizer from transformers import CLIPProcessor, CLIPModel, CLIPTextModel import numpy as np query_texts = ['一个人', '一辆汽车', '两个男人',...
在文章的图6中看到了一个相关系数的图,想问问这个系数是怎么计算的。https://arxiv.org/pdf/2308.14508.pdf
hi, 作者你好 最近看到了这篇非常棒的paper,很感谢你的工作。 在一些细节方面想请教一下。具体的就是pretrain阶段的model,follow instruction能力应该比较差,很多时候我自己尝试测试时,特别是context较长的情况下,会不停的续写、重复、很少有能够比较完整的回答问题的能力,我比较好奇文中的测试的方法是什么,可以让pretrain模型在context比较长的情况下做到。 祝好!
很奇怪,我觉得是不是哪里出了问题? expected_answer = "eat a sandwich and sit in Dolores Park on a sunny day.".lower().split() model_response = "eat a sandwich and sit in Dolores Park on a sunny day.".lower() score...