IndowK issues

Results 6 issues of


                                            IndowK

其他数据集

作者您好，我想请问能否使用中文数据集进行训练·吗？如果可以，需要我做什么改动吗？

作者您好，我的代码基础比较一般，在运行demo.ipynb的时候，我对以下代码感到疑惑： sbmt_i = metadata[0] emb_org = torch.from_numpy(sbmt_i[1]).to(device) x_org, f0_org, len_org, uid_org = sbmt_i[2] 我大概理解了一下，sbmt_i代表的是原说话人的语音信息，sbmt_i[0]指的是说话人身份，sbmt_i[1]指的是一个one-hot编码（我不太理解这个编码的用处），sbmt_i[2]是一个四维的元组，分别代表mel信息，f0信息，mel曲线和f0曲线的长度，uid 我想知道这个uid是怎么获得的，它是什么含义？以及我想知道x_org, f0_org的获得方式。希望得到您宝贵的回复！

关于编码器的问题

作者您好，我在分析model.py的时候只找到了韵律编码器和f0编码器，我想知道内容编码器是代码的哪一部分，以及我想知道您注释中提到的Encoder_7(nn.Module): """Sync Encoder module"""是什么

音色迁移的问题

作者您好，我选择了vctk数据集中p225到p246共二十个说话人的语音进行训练（包括有p226和p231），模型迭代到十万次左右损失不再下降（31左右），但是使用模型时，我发现仅有音高和韵律进行了转换，而音色没有变化，且转换音色生成的语音质量很差。我继续迭代到二十万次，损失没有下降，效果与迭代十万次的相同，仅有韵律和音高有转换，音色转换效果很差。我想知道这可能是为什么？我应该继续训练迭代到六十多万次吗？

关于损失函数的一些问题

作者您好！我在训练的时候发现损失下降很快，但是结果并不好，我查看了前面有人提出的问题，发现是损失函数的输入维度有问题： x_real的torchsize是[2,128,80]，而x_identic_psnt的torchsize是[2,1,128,80]，我将x_identic_psnt的第二个维度的数据删除后再输入到损失函数中，发现损失下降到0.0007左右就不再下降了，合成的结果相比修改前好了一点（能听懂）但是没什么语音风格迁移的效果，我想知道是否还有哪些地方是我可以修改的？我在前面的提问中找到了可能需要重新训练wavenet的答案，我想知道作者您是重新训练了wavenet吗？

关于口音的问题

大佬们好，我已经可以使用gpt-sovits去合成我想要的音色的语音了，但是我注意到，当使用日语参考语音去合成中文或者英文的时候，或者用某语言的语音去合成其他语言的语音的时候，会有很明显的口音，比如用日语语音做参考去合成英文的时候，听起来就很像日式英语，有点发音不标准？我想知道是否有方法可以解决这个问题呢？如果对sovits部分做微调（不是教程那种使用新数据集做微调），我应该考虑从哪里入手呢？

IndowK

其他数据集

关于demo.ipynb的一些问题

关于编码器的问题

音色迁移的问题

关于损失函数的一些问题

关于口音的问题