BUJIDAOVS
BUJIDAOVS
一样,docker部署的72b-int4模型,单卡和双卡推理都非常慢
windows支持这么差吗,从安装到推理量化部署,报错没停过。有在win上跑通的案例吗
+1,希望能支持本地部署的模型,我的本地模型兼容支持openapi
> Thanks again for your dedicated contributions. > > As I was testing the functionality, how are we expected to use this feature? Currently, I use the following commands after...
https://www.modelscope.cn/models/swift/Qwen3-30B-A3B-Instruct-2507-AWQ 在魔搭7月30日发布的awq模型精度效果奇差无比,从未见过损失这么严重的awq,和初始模型的效果完全不一致 怀疑是初始模型用错了,或者量化了moe不该量化的部分层 Qwen3-30B-A3B-Instruct是颇受期待的模型,官方模型效果很惊艳,希望swift能提供低精度损失的awq量化模型,望修复!
> Hi,感谢支持与反馈。 > > 1、`compressed-tensors是目前更主流的模型量化库,目前其AWQ等量化模型被vllm等推理引擎广泛支持。` 我们确实注意到了 `compressed-tensors` 这一个模型量化库(例如 GLM4.5 的量化模型权重就是以这个格式存储的),但是鉴于使用量较高的一些开源模型(Qwen3、Qwen2.5-VL、InternLM、InternVL、InternS1、GPT-OSS) 暂时没有这个格式的权重,因此暂时还未支持 > > 2、`对于新模型、新量化库等支持趋于停滞,不知道还是否有跟进社区主流生态的计划?` 近期 LMDeploy 更新了 > > * [Support GLM-4-0414 and GLM-4.1V #3846](https://github.com/InternLM/lmdeploy/pull/3846) > * [Support GLM-4.5 #3863](https://github.com/InternLM/lmdeploy/pull/3863)...
This is a widely desired feature after the release of Qwen3, hoping to support the 'enable_thinking' parameter.