InferLLM
InferLLM copied to clipboard
是否有计划优化GPU上的推理加速
目前社区LLM采用主流GPTQ量化之后,量化层的kernel实现基本是负向优化,是否有计划支持GPU上量化后的模型推理加速。
是啊,很想做,就是没时间,也没有人力
想尝试一下帮社区添加GPU支持,请问是否能提供一下大致的思路
想尝试一下帮社区添加GPU支持,请问是否能提供一下大致的思路
https://github.com/ggerganov/llama.cpp/blob/master/ggml-cuda.cu 这边官网提供了cu的 gglm 的实现 src/kern/optimized/ 这个目录下可以实现对应的cuda算子,按照x86的实现就行了,但是我不太清楚现在基于Task队列的这个模式 适不适用,cuda应该是单模型队列的