CosyVoice CosyVoice2-0.5b支持粤语吗

我模仿libritts的cosyvoice2写了个完整的run.sh方法，dataset是用commonvoice的粤语数据，想尝试下粤语的训练，好像粤语的复刻还是口音很重，不知道是数据量不够还是模型提取特征不太支持粤语？

Apr 22 '25 09:04 jansenLiang

用instruct2模式推理，提示词写“用粤语说这句话”

Apr 23 '25 07:04 lllmx-GH

@lllmx-GH CosyVoice2-0.5b里面的CosyVoice-BlankEN能否用于粤语dataset的训练？

Apr 23 '25 11:04 jansenLiang

是可以的，但粤语中常用字沒有在 CosyVoice-BlankEN tokenizer 字典中，所以都會分成 2～3 個 bpe token, eg: 攞 -> [13531, 252]，這點會令輸入變長，但不影響训练。

May 04 '25 11:05 indiejoseph

我模仿libritts的cosyvoice2写了个完整的run.sh方法，dataset是用commonvoice的粤语数据，想尝试下粤语的训练，好像粤语的复刻还是口音很重，不知道是数据量不够还是模型提取特征不太支持粤语？

commonvoice的数据集好像无法区分说话人，看libritts训练数据处理是区分了说话人的，这个想问下大佬怎么解决的

Jun 05 '25 06:06 Wangyongdi

commonvoice 有 speaker id, 而且 Cosyvoice2 用 speaker embedding 處理说话人特徵，沒有区分也不是問題。

Jun 05 '25 07:06 indiejoseph

我使用modelscope.msdatasets下载数据集没有后没有看到speaker id信息呢，而且我看Cosyvoice2代码里面libritts下的训练脚本是先确定说话人，然后根据说话人对应的所有语料嵌入计算说话人embedding的

Jun 05 '25 09:06 Wangyongdi

HuggingFace 上 Common voice 17 有 client id 這是錄音裝置的編號

Jun 05 '25 10:06 indiejoseph

好的，多谢大佬，之前在modelscope下载的数据集，所以没有看到说话人信息

Jun 05 '25 10:06 Wangyongdi

commonvoice 有 speaker id, 而且 Cosyvoice2 用 speaker embedding 處理说话人特徵，沒有区分也不是問題。

想请教一下，不区分说话人id也是可以训练的吗，训练效果会有效果吗

Nov 17 '25 03:11 11075225