CosyVoice
CosyVoice copied to clipboard
cosyvoice3并发速度问题
使用的runtime中fastapi启动服务,模型加载时设置了load_trt=True, load_vllm=True
调用方法model_output = cosyvoice.inference_zero_shot(tts_text, "", "", zero_shot_spk_id=zero_shot_spk_id)
30个字符的内容并发10要十秒钟,这正常吗 感觉有点慢,10个字符10并发要4秒
采用的显卡类型是什么?几张显卡呢?
采用的显卡类型是什么?几张显卡呢?
单卡3090 若使用流式输出 30字符单次请求首包大概0.7s,完整5.7s triton实例修改到3 非流式三十字符10并发也需要8-9秒