codingl2k1 comments

Results 86 comments of


                                            codingl2k1

请求Xinference代理的GLM4-9B，无法返回工具调用信息

使用的是transformers后端还是vllm后端？

请求Xinference代理的GLM4-9B，无法返回工具调用信息

vLLM 后端的 tool call 还没实现，transformers 后端应该是正常的，你使用 transformers 后端会有啥错误信息吗？

请求Xinference代理的GLM4-9B，无法返回工具调用信息

> > vLLM 后端的 tool call 还没实现，transformers 后端应该是正常的，你使用 transformers 后端会有啥错误信息吗？ > > 明白了，我一直用VLLM，比较快，而且稳定，期待实现。 > > 客户端的langchain使用的是0.3.0。Xinference服务端部署Transforms引擎（版本4.44.2）的glm4-chat。 > > 客户端运行上述代码，Xinference服务端没有异常，Langchain客户端抛出异常信息如下： > > ``` > Traceback (most recent call last): > File...

内网无法启动内置的模型，使用自定义的方式定义了一个yi-vl-chat的模型，运行的时候报错

有没有更完整的日志？

CosyVoice流式输出报错Parallel generation is not supported by llama-cpp-python

主要是 llama cpp 不是线程安全的，多个请求同时推理会挂：https://github.com/abetlen/llama-cpp-python/issues/471

CosyVoice流式输出报错Parallel generation is not supported by llama-cpp-python

我尝试复现一下，如果没并发请求那应该是哪儿有 bug。

CosyVoice流式输出报错Parallel generation is not supported by llama-cpp-python

CosyVoice流式多次生成没问题啊，只是没开放并行生成。前一个流式生成没结束，第二个请求过去是会提示错误的。我是这样测试的： ![image](https://github.com/user-attachments/assets/de513727-8205-489c-bb4a-15564cb8846d)

阿里云Xinference集群部署出现异常

地址建议填写主机的 ip 地址，0.0.0.0 地址从外边连会有问题。

xinference安装成功后，启动报错，通过浏览器无法打开xinference的界面

没有错误信息吗？我测试是正常的。

loading model error，server error 500

看着好像是worker load model挂了，还有更完整的信息吗？