HSIAO KUO WEI
HSIAO KUO WEI
万分感谢作者這麽快回答!! 當然也許有些人沒有那麽多GPU,還是想用量化過gguf版,也許可以在代碼裏同時保留加載原始版和加載量化版的代碼,供使用者自己選擇,謝謝!
我也是,需要使用他們提供的ollama版本,然後重新編譯他們提供的ollama,才能運行他們的miniCPM,非常的複雜
pytorch engine部署會失敗,但是我改用--backend turbomind他還是會强制使用pytorch **log如下:** 2024-08-27 15:59:09,383 - lmdeploy - WARNING - Try to run with pytorch engine because `D:\LLM_Project\Baseline_Multimodal_Model\Phi-3.5-vision-instruct` is not explicitly supported by lmdeploy.
我安裝了windows版的triton triton-2.1.0-cp310-cp310-win_amd64.whl,但是結果還是一樣。所以無解