CosyVoice 用sft模式文本生成语音，最后一两个字会丢失

使用fastapi中的client.py脚本使用sft模式文本生成语音，录音文件中会缺少最后一两个字，比如下面这个语句，就会丢失‘行’字，请问有谁知道为什么吗？ python client.py --port 50000 --mode sft --tts_text "创新永无止境，发展永不停步。湖南正以创新为引领，在高质量发展的道路上阔步前行。" --spk_id "中文女" --tts_wav "output2.wav"

Mar 14 '25 03:03 YFAN252

可以看看是否必现，如果不是每一句都必现，那么就是模型本身原因，基模型一般是zero shot推理

Mar 16 '25 08:03 aluminumbox

This issue is stale because it has been open for 30 days with no activity.

Apr 16 '25 02:04 github-actions[bot]

spk_id "中文女" 怎么来的好兄弟

May 20 '25 01:05 wj1017090777

spk_id "中文女" 怎么来的好兄弟

有角色列表['中文女', '中文男', '日语男', '粤语女', '英文女', '英文男', '韩语女'] cosyvoice.list_available_spks()

May 28 '25 02:05 vedbobo

使用fastapi中的client.py脚本使用sft模式文本生成语音，录音文件中会缺少最后一两个字，比如下面这个语句，就会丢失‘行’字，请问有谁知道为什么吗？ python client.py --port 50000 --mode sft --tts_text "创新永无止境，发展永不停步。湖南正以创新为引领，在高质量发展的道路上阔步前行。" --spk_id "中文女" --tts_wav "output2.wav"

我也是最后两个字缺失了！用的CosyVoice-300M-SFT，官网的示例。

May 28 '25 02:05 vedbobo

最近使用我也遇到。

Nov 30 '25 18:11 premade-man

我后面发现是自己电脑播放器的问题，换一个就好了

Y帆 @.***

Dec 12 '25 03:12 YFAN252