ms-swift
ms-swift copied to clipboard
怎么做 batch infer 来提高显卡利用率呢?
我使用 llava 72B 推理时,batch_size=1 显卡利用率不高,怎么可以使用大 batch 推理提高利用率呢?我没有使用 vllm,是直接使用的 swift 推理 https://github.com/modelscope/swift/blob/main/docs/source/Multi-Modal/llava%E6%9C%80%E4%BD%B3%E5%AE%9E%E8%B7%B5.md
目前原生pt不支持batch推理,还什么不考虑下vllm呢
请问下 vllm怎么批量推理啊
https://github.com/modelscope/swift/blob/main/docs/source/Multi-Modal/vLLM%E6%8E%A8%E7%90%86%E5%8A%A0%E9%80%9F%E6%96%87%E6%A1%A3.md
感觉加速不是很明显啊