LI YUYANG
LI YUYANG
> 你好,我是北师大天文系博士,也是做AI天文交叉方向的。想和您请教一下,在Qwen-VL预训练模型基础上,加入我们人工标注的天文图像数据进行训练和微调,做一个多模态可生成天文图像的天文大模型是否可行?同时想请教您训练星语模型时所需的算力大概是多少? 我们最近也在进行相关的尝试,不知道是否方便添加微信讨论? WeChat: Astro_YuYang
> Dear StarGLM developer, > > 我是 InternLM 社区开发者&志愿者尖米, 大佬开源的工作对我的启发很大,希望可以探讨使用 InternLM 实现 StarGLM 的可能性和实现路径,我的微信是 mzm312,希望可以取得联系进行更深度的交流; > > Best regards, 尖米 您好! 感谢你的建议,最近我们正在做agent相关的工作。 我们对lagent所支持的code interpreter与集成的agent功能十分感兴趣,期待进一步交流!
Thanks for your question, for StarGLM, it is based on ChatGLM2-6B
感谢您的问题! 之前的数据主要用于多模态初期的visualglm探索,可能仍需要进一步订正。 最近的数据,则是通过BLIP2+多模态模型+人工标定 用于了星语绘图LORA的训练。 目前已经开发了更完善的多模态功能,下个版本会更新,欢迎一起讨论交流!
> Your model notices that NGC7714 is a spiral galaxy. That's cool but actually, it is also a merging galaxy. Your generated images of the galaxy look artistic instead of...
> Hi YuYang, > > Congratulations on your great work! It would be really nice if you can upload the model to Hugging Face hub. > > This would help...
> 请问微调了多少个iteration才达到demo中的效果 你好! 对于大量数据集,经验值一般是2-3个epoch。
> readme的功能展示说明是20w条天文对话数据分布微调 我想请教一下,一个大模型纯微调是应该没有办法增加新的领域知识的吧,所以这里我们仅仅只做了微调(sft),还是也做了预训练(pt)。 如果能够通过微调就增加新的领域知识的话,我们微调的硬件大概是一个什么配置,谢谢。 您好! 在开始前,我们确实倾向于LIMA的论文观点,即微调主要学习的是知识的引导方式,以引导模型激活预训练时所见过的知识。但是在具体训练后,我们发现经过大量的微调数据微调后,是可以回答一些未微调或者微调数据不太够的问题,这与LinkSoul以及很多微调项目的结果是一致的,所以我们认为“大量”是可以注入知识的。 但是我们更倾向于通过知识库注入知识,将微调当做一种学习任务形式的过程,以提升模型使用外挂知识库的能力。个人认为,随着未来基模型参数量的增加,考虑到领域知识配比、与原数据分布差异问题,预训练的成本将会更高,而微调在提升链接知识库能力的同时,伴随激活的预训练知识会更加可观。 目前训练的配置是2*A6000。
> 谢谢回答,那我继续请教一下,就我的认知目前以外挂知识库为主的方式除了chatgpt其他的llm好像能落地的很少见到,哪怕像chatlaw那种也是pt、sft、知识库一起上。 答主方便回答一下怎么理解通过pt、sft加强llm的提取关键词的能力么,谢谢。 通过特定文本的sft和RLHF加强模型链接知识库能力,是我们v2版本正在尝试的内容。关于特定文本SFT部分,我们考虑通过具有长文本history、总结类任务等的数据进行训练,以学习根据材料回复这种任务形式。关于后者,已经有相关项目进行了可观的实践(https://huggingface.co/fb700/chatglm-fitness-RLHF) ,我们预期的实现效果也是通过人工反馈让模型正确的依赖资料进行回复。 预计这个月会更新相应权重。相关问题可以加微信:Astro_YuYang,一起学习交流。
您好!很抱歉,我不是很清楚这里的“文档”指的是监督训练还是知识库链接用到的数据。 如果是监督训练的数据,我们前三步微调采用的是从开源语料库中筛选的天文领域知识,这部分数据具有几乎统一的格式,只需要训练时在template中标注即可。 如果是知识库链接数据,需要将文本数据进行切分、向量化。 我猜测您可能问的是如何将纯文本数据转化为对话数据,这个目前除了通过GPT总结生成暂时没有很好的办法,对于大量的纯文本数据,如果条件允许,建议进行二次预训练,这种方法在扩展模型知识的同时,不需要进行额外的格式清洗。 希望上面的回答对您有帮助!数据清洗是一个长期的过程,如果方便可以一起交流:wechat-Astro_YuYang > 您好,您是怎么对原始的文档处理得到训练数据的?谢谢