xtuner icon indicating copy to clipboard operation
xtuner copied to clipboard

计划支持多模态模型,比如llava1.5的long sequence的训练吗

Open dyyoungg opened this issue 1 year ago • 7 comments

如题,

dyyoungg avatar Apr 30 '24 05:04 dyyoungg

llava 1.5 有支持 long sequence 训练吗?

hhaAndroid avatar Apr 30 '24 05:04 hhaAndroid

llava 1.5 有支持 long sequence 训练吗?

目前看起来没有

dyyoungg avatar Apr 30 '24 05:04 dyyoungg

长序列训练不是问题,目前 xtuner 已经支持了。主要问题是需要多模态的长序列数据集

hhaAndroid avatar Apr 30 '24 07:04 hhaAndroid

能不能问下你的长序列训练场景是什么呢?我看目前Llava训练的序列长度普遍不长

HIT-cwh avatar Apr 30 '24 07:04 HIT-cwh

能不能问下你的长序列训练场景是什么呢?我看目前Llava训练的序列长度普遍不长

目前很多视频理解模型都是基于llava的,但是理解长度都短,长视频的理解需要更多的图像token

dyyoungg avatar Apr 30 '24 08:04 dyyoungg

长序列训练不是问题,目前 xtuner 已经支持了。主要问题是需要多模态的长序列数据集

我其实困惑就在于 多模态数据集处理的时候,是要过vision encoder和projector的,但是如果多图的话,比如几百上千张图,不可能等到你把llm的sequence都拼完了 再来切吧,这样效率感觉就低了。就是有vision encoder之后感觉 这套训练流程 似乎得改

dyyoungg avatar Apr 30 '24 08:04 dyyoungg

长序列训练不是问题,目前 xtuner 已经支持了。主要问题是需要多模态的长序列数据集

我其实困惑就在于 多模态数据集处理的时候,是要过vision encoder和projector的,但是如果多图的话,比如几百上千张图,不可能等到你把llm的sequence都拼完了 再来切吧,这样效率感觉就低了。就是有vision encoder之后感觉 这套训练流程 似乎得改

如果允许vision encoder的重复计算,现有xtuner的序列并行方法应该比较好支持,如果不允许sequence parallel group内的重复计算,可能就复杂多了

HIT-cwh avatar May 08 '24 04:05 HIT-cwh