是否有计划优化GPU上的推理加速

Open 77h2l opened this issue 2 years ago • 3 comments

目前社区LLM采用主流GPTQ量化之后，量化层的kernel实现基本是负向优化，是否有计划支持GPU上量化后的模型推理加速。

May 12 '23 02:05 77h2l

是啊，很想做，就是没时间，也没有人力

May 12 '23 05:05 chenqy4933

想尝试一下帮社区添加GPU支持，请问是否能提供一下大致的思路

May 24 '23 05:05 SuperCB

想尝试一下帮社区添加GPU支持，请问是否能提供一下大致的思路

https://github.com/ggerganov/llama.cpp/blob/master/ggml-cuda.cu 这边官网提供了cu的 gglm 的实现 src/kern/optimized/ 这个目录下可以实现对应的cuda算子，按照x86的实现就行了，但是我不太清楚现在基于Task队列的这个模式适不适用，cuda应该是单模型队列的

Jun 01 '23 02:06 cery999