CosyVoice2-0.5b支持粤语吗
我模仿libritts的cosyvoice2写了个完整的run.sh方法,dataset是用commonvoice的粤语数据,想尝试下粤语的训练,好像粤语的复刻还是口音很重,不知道是数据量不够还是模型提取特征不太支持粤语?
用instruct2模式推理,提示词写“用粤语说这句话”
@lllmx-GH CosyVoice2-0.5b里面的CosyVoice-BlankEN能否用于粤语dataset的训练?
是可以的,但粤语中常用字沒有在 CosyVoice-BlankEN tokenizer 字典中,所以都會分成 2~3 個 bpe token, eg: 攞 -> [13531, 252],這點會令輸入變長,但不影響训练。
我模仿libritts的cosyvoice2写了个完整的run.sh方法,dataset是用commonvoice的粤语数据,想尝试下粤语的训练,好像粤语的复刻还是口音很重,不知道是数据量不够还是模型提取特征不太支持粤语?
commonvoice的数据集好像无法区分说话人,看libritts训练数据处理是区分了说话人的,这个想问下大佬怎么解决的
commonvoice 有 speaker id, 而且 Cosyvoice2 用 speaker embedding 處理说话人特徵,沒有区分也不是問題。
我使用modelscope.msdatasets下载数据集没有后没有看到speaker id信息呢,而且我看Cosyvoice2代码里面libritts下的训练脚本是先确定说话人,然后根据说话人对应的所有语料嵌入计算说话人embedding的
HuggingFace 上 Common voice 17 有 client id 這是錄音裝置的編號
好的,多谢大佬,之前在modelscope下载的数据集,所以没有看到说话人信息
commonvoice 有 speaker id, 而且 Cosyvoice2 用 speaker embedding 處理说话人特徵,沒有区分也不是問題。
想请教一下,不区分说话人id也是可以训练的吗,训练效果会有效果吗