支持自定义视觉编码器么（llava-llama3）?

Open Yanllan opened this issue 1 year ago • 3 comments

支持自定义视觉编码器么（llava-llama3）? 例如将clip换成siglip? 该如何实现？哪些代码需要修改？

May 09 '24 11:05 Yanllan

已经在重构视觉部分了，快了。

May 09 '24 11:05 hhaAndroid

支持自定义视觉编码器么（llava-llama3）? 例如将clip换成siglip? 该如何实现？哪些代码需要修改？

哇，兄弟，你也是看了google 的paligamma吗？sigclip这个确实要比vitclip好用啊。

May 17 '24 07:05 ztfmars

请问有进展吗？

Jul 08 '24 10:07 yuzhms