Will丶wil
Will丶wil
目前只看到了bert和decoder的支持demo,不知道对于bart这种encoder-decoder类型的模型是否支持,是两个组件分开调用turbo么
好的 十分感谢,不过看demo里面只对decoder部分做了处理,是因为encoder只编码一次 这边只对主要耗时的解码器加速吧
how can i get the pretrained model like "provided_models/yc2_100m_coot.pth" for my chinese caption datasets? I have extract the coot features of youcook2 with "Extract your own embeddings" in Readme and...
> The pretrained models only understand english, for chinese you will have to train everything from scratch: Train retrieval, extract features, train captioning. Thank you very much for your reply!...
@yuhangzang 感谢回复 不过使用xcomposer2-vl-7b模型,感觉图像序列的输入长度有点太大了,目前能想到两种sft的处理办法 1.增大模型的输入长度,比如设置成10240等。因为输入视频需要抽取多帧,提供8张以上的图片序列输入基本就快过万了,太短不适合做视频理解,但是太长的输入也会导致模型推理性能过慢从而不可用。 2.sft的时候将模型处理的图像分辨率调小,比如xcomposer2-7b那样变成16x16的长度,不过暂时不清楚这个更改会不会导致跟pretrain阶段gap太大影响效果 更倾向于处理办法2,想请教下这个可行性多大呢,或者博主有没有其他更好的建议呢~
@yuhangzang 想问下,finetune脚本里,数据的获取为什么要用randrange呢,那岂不是没法保证数据集能够完全轮训一遍,而且有些数据还可能会重复训练,其中Mix_dataset的get_item也是采用的random的形式,这个是有什么原因么 https://github.com/InternLM/InternLM-XComposer/blob/96731ae522019a90068f8e404d76d347f92a8bcb/finetune/data_mix.py#L156 如果有空,上面的问题也麻烦解答一下吧~ 另外想问下有没有什么交流群什么的呢,这里沟通有点不方便感觉
@yuhangzang 有个问题想请教下~ finetune代码里 数据构造是不加任何的前置prompt https://github.com/InternLM/InternLM-XComposer/blob/96731ae522019a90068f8e404d76d347f92a8bcb/finetune/data_mix.py#L11 但是不管是xcomposer2-vl还是xcomposer2模型在gradio服务上都是有固定的meta前置prompt,尝试过不加任何前置prompt效果会变得很差基本不可用,想问下这里finetune代码为什么没有加类似的前置prompt呢? 尝试进一步finetune,需要保持跟chat_meta一致的前置prompt么,直觉上觉得是不用 但是训练不加前置prompt是不是效果会差一些? https://github.com/InternLM/InternLM-XComposer/blob/96731ae522019a90068f8e404d76d347f92a8bcb/examples/gradio_demo_chat.py#L29
@yuhangzang 请教下大佬,最近一直在用灵笔2模型做实验,图像类效果很好,但是对于多图这种视频类效果相对一般,想请教下灵笔2模型有没有后续的迭代规划呢,是进一步优化图像模态的效果还是增加视频侧的能力呢
@Quan-Sun 想问下这个中英双语版模型有大概的排期时间嘛
@pfldy2850 Thank you so much for your work! However, I encountered a problem when running this version of the [code](https://github.com/pfldy2850/vllm/tree/feature-input-embeds), almost the same environment, the same input and the same...