Aworselife comments

Repositories
Issues
Comments

Results 2 comments of


                                            Aworselife

关于说话人信息提取的问题

> > maybe your prompt audio is noisy, use a clean one > > 您好，请问 CosyVoice-300M中的flow模型，训练数据中的 spk embedding是从 token对应的音频中直接提取的呢？还是用同一说话人额外的prompt audio来提取的呢？谢谢~ 代码上来看(tools.extract_embedding)，似乎是对同一说话人的所有音频提spk embedding再求mean吧

关于说话人信息提取的问题

> > > > maybe your prompt audio is noisy, use a clean one > > > > > > > > > 您好，请问 CosyVoice-300M中的flow模型，训练数据中的 spk embedding是从 token对应的音频中直接提取的呢？还是用同一说话人额外的prompt audio来提取的呢？谢谢~ >...