CosyVoice icon indicating copy to clipboard operation
CosyVoice copied to clipboard

CosyVoice2-0.5b支持粤语吗

Open jansenLiang opened this issue 10 months ago • 9 comments

我模仿libritts的cosyvoice2写了个完整的run.sh方法,dataset是用commonvoice的粤语数据,想尝试下粤语的训练,好像粤语的复刻还是口音很重,不知道是数据量不够还是模型提取特征不太支持粤语?

jansenLiang avatar Apr 22 '25 09:04 jansenLiang

用instruct2模式推理,提示词写“用粤语说这句话”

lllmx-GH avatar Apr 23 '25 07:04 lllmx-GH

@lllmx-GH CosyVoice2-0.5b里面的CosyVoice-BlankEN能否用于粤语dataset的训练?

jansenLiang avatar Apr 23 '25 11:04 jansenLiang

是可以的,但粤语中常用字沒有在 CosyVoice-BlankEN tokenizer 字典中,所以都會分成 2~3 個 bpe token, eg: 攞 -> [13531, 252],這點會令輸入變長,但不影響训练。

indiejoseph avatar May 04 '25 11:05 indiejoseph

我模仿libritts的cosyvoice2写了个完整的run.sh方法,dataset是用commonvoice的粤语数据,想尝试下粤语的训练,好像粤语的复刻还是口音很重,不知道是数据量不够还是模型提取特征不太支持粤语?

commonvoice的数据集好像无法区分说话人,看libritts训练数据处理是区分了说话人的,这个想问下大佬怎么解决的

Wangyongdi avatar Jun 05 '25 06:06 Wangyongdi

commonvoice 有 speaker id, 而且 Cosyvoice2 用 speaker embedding 處理说话人特徵,沒有区分也不是問題。

indiejoseph avatar Jun 05 '25 07:06 indiejoseph

我使用modelscope.msdatasets下载数据集没有后没有看到speaker id信息呢,而且我看Cosyvoice2代码里面libritts下的训练脚本是先确定说话人,然后根据说话人对应的所有语料嵌入计算说话人embedding的

Wangyongdi avatar Jun 05 '25 09:06 Wangyongdi

HuggingFace 上 Common voice 17 有 client id 這是錄音裝置的編號

Image

indiejoseph avatar Jun 05 '25 10:06 indiejoseph

好的,多谢大佬,之前在modelscope下载的数据集,所以没有看到说话人信息

Wangyongdi avatar Jun 05 '25 10:06 Wangyongdi

commonvoice 有 speaker id, 而且 Cosyvoice2 用 speaker embedding 處理说话人特徵,沒有区分也不是問題。

想请教一下,不区分说话人id也是可以训练的吗,训练效果会有效果吗

11075225 avatar Nov 17 '25 03:11 11075225