AWangji comments

Results 25 comments of


                                            AWangji

Size mismatch for tok_embeddings.weight

same, how do you resolve it?

Inference not working

> Hi Can someone please help? hi, I met the same problem with you. How do you resolve it?

Why always 403 forbidden when download the weights?

> The question is ip address. how to resolve

使用10s英文微调模型，合成的音频音质非常差，其他人有出现同样的问题吗？

> 克隆是要复刻输入源的，你给了一段音质差的音频作为输入源，模型需要忠实地还原差音质，否则就是有问题了。比如你输入一个差音质的川普，模型给你跑出来一个高音质的川普，这说明训练集见过川普，模型作弊了，而非模型对音色有了理解。 > > 建议前处理（先增强ref音频再过模型）或者后处理（先过模型再增强音频）做音质增强，推荐一个免费的web工具 podcast.adobe.com/enhance 请教一下音质增强有没有推荐的方法

参考音频时长可以是1分钟么？10秒太短了

> 我的理解是不可以。目前版本reference音频会影响output音频的长度。如果reference有一分钟，且生成的文字比较短，那么生成的音频会很拖沓。如果生成的文字很长，那么会有显存以及hallucination方面的问题，按照作者的建议是以50字为单位切分开那我理解单次推理最长可以用50个字的音频咯？

参考音频时长可以是1分钟么？10秒太短了

同问

参考音频时长可以是1分钟么？10秒太短了

> 为什么会需要很长的参考音频？我感觉短的也挺像的呀主要是用自己录的语音推理结果很不好。或者说你们对于自己录音的音频如何处理的呢？是先做了过滤或者音质增强然后再推理？

参考音频时长可以是1分钟么？10秒太短了

> 你的描述有点模糊，效果不好的因素可能很多，你是为什么会怀疑是长度的问题呢？我们假设是长度的问题，那么应该使用仓库里面提供的自动切割工具，先把长音频切短之后再训练推理呀我们假设是音质的问题，那就用用工具先处理一下音质 [#568 (comment)](https://github.com/RVC-Boss/GPT-SoVITS/issues/568#issuecomment-1956319044) 好的非常感谢，我试一下。但是我最终是希望部署到Linux上，所以是否有本地部署的音质增强的模型推荐呢？

参考音频时长可以是1分钟么？10秒太短了

> https://modelscope.cn/models/iic/speech_frcrn_ans_cirm_16k/summary 非常感谢。其实这个项目里也有语音降噪的模型，但我用我录制的声音再通过语音降噪以后，进行语音克隆，虽然效果有一点提升但是依然不太好，大家通常对录音的音频还需要如何处理呢？