CosyVoice icon indicating copy to clipboard operation
CosyVoice copied to clipboard

用sft模式文本生成语音,最后一两个字会丢失

Open YFAN252 opened this issue 10 months ago • 7 comments

使用fastapi中的client.py脚本使用sft模式文本生成语音,录音文件中会缺少最后一两个字,比如下面这个语句,就会丢失‘行’字,请问有谁知道为什么吗? python client.py --port 50000 --mode sft --tts_text "创新永无止境,发展永不停步。湖南正以创新为引领,在高质量发展的道路上阔步前行。" --spk_id "中文女" --tts_wav "output2.wav"

YFAN252 avatar Mar 14 '25 03:03 YFAN252

可以看看是否必现,如果不是每一句都必现,那么就是模型本身原因,基模型一般是zero shot推理

aluminumbox avatar Mar 16 '25 08:03 aluminumbox

This issue is stale because it has been open for 30 days with no activity.

github-actions[bot] avatar Apr 16 '25 02:04 github-actions[bot]

spk_id "中文女" 怎么来的 好兄弟

wj1017090777 avatar May 20 '25 01:05 wj1017090777

spk_id "中文女" 怎么来的 好兄弟

有角色列表['中文女', '中文男', '日语男', '粤语女', '英文女', '英文男', '韩语女'] cosyvoice.list_available_spks()

vedbobo avatar May 28 '25 02:05 vedbobo

使用fastapi中的client.py脚本使用sft模式文本生成语音,录音文件中会缺少最后一两个字,比如下面这个语句,就会丢失‘行’字,请问有谁知道为什么吗? python client.py --port 50000 --mode sft --tts_text "创新永无止境,发展永不停步。湖南正以创新为引领,在高质量发展的道路上阔步前行。" --spk_id "中文女" --tts_wav "output2.wav"

我也是最后两个字缺失了!用的CosyVoice-300M-SFT,官网的示例。

vedbobo avatar May 28 '25 02:05 vedbobo

最近使用我也遇到。

premade-man avatar Nov 30 '25 18:11 premade-man

我后面发现是自己电脑播放器的问题,换一个就好了

Y帆 @.***

YFAN252 avatar Dec 12 '25 03:12 YFAN252