IndowK
IndowK
其他数据集
作者您好,我想请问能否使用中文数据集进行训练·吗?如果可以,需要我做什么改动吗?
作者您好,我的代码基础比较一般,在运行demo.ipynb的时候,我对以下代码感到疑惑: sbmt_i = metadata[0] emb_org = torch.from_numpy(sbmt_i[1]).to(device) x_org, f0_org, len_org, uid_org = sbmt_i[2] 我大概理解了一下,sbmt_i代表的是原说话人的语音信息,sbmt_i[0]指的是说话人身份,sbmt_i[1]指的是一个one-hot编码(我不太理解这个编码的用处),sbmt_i[2]是一个四维的元组,分别代表mel信息,f0信息,mel曲线和f0曲线的长度,uid 我想知道这个uid是怎么获得的,它是什么含义? 以及我想知道x_org, f0_org的获得方式。 希望得到您宝贵的回复!
关于编码器的问题
作者您好,我在分析model.py的时候只找到了韵律编码器和f0编码器,我想知道内容编码器是代码的哪一部分,以及我想知道您注释中提到的Encoder_7(nn.Module): """Sync Encoder module"""是什么
音色迁移的问题
作者您好,我选择了vctk数据集中p225到p246共二十个说话人的语音进行训练(包括有p226和p231),模型迭代到十万次左右损失不再下降(31左右),但是使用模型时,我发现仅有音高和韵律进行了转换,而音色没有变化,且转换音色生成的语音质量很差。我继续迭代到二十万次,损失没有下降,效果与迭代十万次的相同,仅有韵律和音高有转换,音色转换效果很差。我想知道这可能是为什么?我应该继续训练迭代到六十多万次吗?
作者您好! 我在训练的时候发现损失下降很快,但是结果并不好,我查看了前面有人提出的问题,发现是损失函数的输入维度有问题: x_real的torchsize是[2,128,80],而x_identic_psnt的torchsize是[2,1,128,80],我将x_identic_psnt的第二个维度的数据删除后再输入到损失函数中,发现损失下降到0.0007左右就不再下降了,合成的结果相比修改前好了一点(能听懂)但是没什么语音风格迁移的效果,我想知道是否还有哪些地方是我可以修改的?我在前面的提问中找到了可能需要重新训练wavenet的答案,我想知道作者您是重新训练了wavenet吗?
关于口音的问题
大佬们好,我已经可以使用gpt-sovits去合成我想要的音色的语音了,但是我注意到,当使用日语参考语音去合成中文或者英文的时候,或者用某语言的语音去合成其他语言的语音的时候,会有很明显的口音,比如用日语语音做参考去合成英文的时候,听起来就很像日式英语,有点发音不标准?我想知道是否有方法可以解决这个问题呢?如果对sovits部分做微调(不是教程那种使用新数据集做微调),我应该考虑从哪里入手呢?