InferLLM icon indicating copy to clipboard operation
InferLLM copied to clipboard

是否有计划优化GPU上的推理加速

Open 77h2l opened this issue 2 years ago • 3 comments

目前社区LLM采用主流GPTQ量化之后,量化层的kernel实现基本是负向优化,是否有计划支持GPU上量化后的模型推理加速。

77h2l avatar May 12 '23 02:05 77h2l

是啊,很想做,就是没时间,也没有人力

chenqy4933 avatar May 12 '23 05:05 chenqy4933

想尝试一下帮社区添加GPU支持,请问是否能提供一下大致的思路

SuperCB avatar May 24 '23 05:05 SuperCB

想尝试一下帮社区添加GPU支持,请问是否能提供一下大致的思路

https://github.com/ggerganov/llama.cpp/blob/master/ggml-cuda.cu 这边官网提供了cu的 gglm 的实现 src/kern/optimized/ 这个目录下可以实现对应的cuda算子,按照x86的实现就行了,但是我不太清楚现在基于Task队列的这个模式 适不适用,cuda应该是单模型队列的

cery999 avatar Jun 01 '23 02:06 cery999