codingl2k1
codingl2k1
使用的是transformers后端还是vllm后端?
vLLM 后端的 tool call 还没实现,transformers 后端应该是正常的,你使用 transformers 后端会有啥错误信息吗?
> > vLLM 后端的 tool call 还没实现,transformers 后端应该是正常的,你使用 transformers 后端会有啥错误信息吗? > > 明白了,我一直用VLLM,比较快,而且稳定,期待实现。 > > 客户端的langchain使用的是0.3.0。Xinference服务端部署Transforms引擎(版本4.44.2)的glm4-chat。 > > 客户端运行上述代码,Xinference服务端没有异常,Langchain客户端抛出异常信息如下: > > ``` > Traceback (most recent call last): > File...
主要是 llama cpp 不是线程安全的,多个请求同时推理会挂:https://github.com/abetlen/llama-cpp-python/issues/471
我尝试复现一下,如果没并发请求那应该是哪儿有 bug。
CosyVoice流式多次生成没问题啊,只是没开放并行生成。前一个流式生成没结束,第二个请求过去是会提示错误的。我是这样测试的: 
地址建议填写主机的 ip 地址,0.0.0.0 地址从外边连会有问题。
没有错误信息吗?我测试是正常的。
看着好像是worker load model挂了,还有更完整的信息吗?