魏云飞
魏云飞
构建好docker镜像后运行:lmdeploy serve api_server Qwen2-7B-Instruct --backend pytorch 得到的报错:  但是triton这个库在aarch64上没有提供预编译好的包,自行编译也失败了。
> > 构建好docker镜像后运行:lmdeploy serve api_server Qwen2-7B-Instruct --backend pytorch 得到的报错:  但是triton这个库在aarch64上没有提供预编译好的包,自行编译也失败了。 > > @yunfwe 目前支持的模型为 llama2-7b, internlm2-7b, mixtral-8x7b,可以参考以下脚本进行静态的推理,chat版本的功能还在开发中: > > ```python > import deeplink_ext > import lmdeploy > from lmdeploy...
这个问题是xoscar库的问题,目前已经合并到0.3.2版本 https://github.com/xorbitsai/xoscar/pull/87 使用 `pip install xoscar==0.3.2` 升级后再压测试试
> > 这个问题是xoscar库的问题,目前已经合并到0.3.2版本 [xorbitsai/xoscar#87](https://github.com/xorbitsai/xoscar/pull/87) 使用 `pip install xoscar==0.3.2` 升级后再压测试试 > > 升级了好像还是有问题,报错信息基本一致,好像是 `stream == True` 之后就会触发这个BUG 升级后重启xinference了吗?粘贴下报错日志看看
> > > > 这个问题是xoscar库的问题,目前已经合并到0.3.2版本 [xorbitsai/xoscar#87](https://github.com/xorbitsai/xoscar/pull/87) 使用 `pip install xoscar==0.3.2` 升级后再压测试试 > > > > > > > > > 升级了好像还是有问题,报错信息基本一致,好像是 `stream == True` 之后就会触发这个BUG > > > > >...