kandada comments

Results 5 comments of


                                            kandada

Can not deploy qwen2-vl

我也有同样的问题，怎么解决？ Server error: 500 - [address=0.0.0.0:35907, pid=2717359] cannot import name 'Qwen2VLForConditionalGeneration' from 'transformers'...

Xinference部署qwen2-vl为啥生成速度那么慢啊，感觉不正常

> 你咋安装的。为什么我们都报错 #2361 升级一下transformers。pip install git+https://github.com/huggingface/transformers 不过虽然能运行，同样显卡条件的情况下，相比其他部署方式，qwen2-vl在xinference中的生成速度非常慢。不知道怎么解决。。。

模型调用是线程安全的吗？ cosyvoice = CosyVoice2(model_dir=model_path, load_jit=False, load_trt=False, fp16=False)

> 请教大佬，模型调用是线程安全的吗？ cosyvoice = CosyVoice2(model_dir=model_path, load_jit=False, load_trt=False, fp16=False) 比如我这样调用需要加线程锁吗？ generator = cosyvoice.inference_cross_lingual(text, prompt_speech_16k, stream=True)

部署qwen2.5-vl-7b-instrcut模型，5并发，单个请求包含20张图片，xinference会堵塞住，而单独使用底层推理引擎则不会

我单次请求3张图片或以上就出错，就解决方法 > > > 简单来说，两次，每次5个请求，第二次会卡住？ > > > > > > [@qinxuye](https://github.com/qinxuye) 补充一下，流式请求不会有这个现象，非流式才会有 > > 有点奇怪。我们排查下。

部署qwen2.5-vl-7b-instrcut模型，5并发，单个请求包含20张图片，xinference会堵塞住，而单独使用底层推理引擎则不会

> > 我单次请求3张图片或以上就出错，就解决方法 > > > > > 简单来说，两次，每次5个请求，第二次会卡住？ > > > > > > > > > > > > [@qinxuye](https://github.com/qinxuye) 补充一下，流式请求不会有这个现象，非流式才会有 > > > > > > >...