CosyVoice
CosyVoice copied to clipboard
s3tokenizer,g k开头的字容易有颤音
您好!用 cosyvoice2 25hz 的 s3tokenizer 尝试复现 cosyvoice2,训出来的模型音质挺好的,唯一美中不足的是 部分 g k 开头的字,比如 个、各、国、哥 这些字,有一定的几率会出现颤音,想问问作者这可能是啥原因呢,非常感谢!
例如下面这个case:
https://drive.google.com/file/d/1MUv8r1zhQ2Qoakg-9k4gPJHP1NaJnRVJ/view?usp=sharing
对应文本是 “日本将一个惊天秘密隐藏七十六年,全世界的人都被他给骗了。”
可能tokenizer中过于关注语义信息
同样面临这个问题,准备换个codec,训练flow试试