xtuner
xtuner copied to clipboard
支持自定义视觉编码器么(llava-llama3)?
支持自定义视觉编码器么(llava-llama3)? 例如将clip换成siglip? 该如何实现?哪些代码需要修改?
已经在重构视觉部分了,快了。
支持自定义视觉编码器么(llava-llama3)? 例如将clip换成siglip? 该如何实现?哪些代码需要修改?
哇,兄弟,你也是看了google 的paligamma吗?sigclip这个确实要比vitclip好用啊。
请问有进展吗?