AWangji

Results 25 comments of AWangji

same, how do you resolve it?

> Hi Can someone please help? hi, I met the same problem with you. How do you resolve it?

> The question is ip address. how to resolve

> 克隆是要复刻输入源的,你给了一段音质差的音频作为输入源,模型需要忠实地还原差音质,否则就是有问题了。比如你输入一个差音质的川普,模型给你跑出来一个高音质的川普,这说明训练集见过川普,模型作弊了,而非模型对音色有了理解。 > > 建议前处理(先增强ref音频再过模型)或者后处理(先过模型再增强音频)做音质增强,推荐一个免费的web工具 podcast.adobe.com/enhance 请教一下音质增强有没有推荐的方法

> 我的理解是不可以。目前版本reference音频会影响output音频的长度。如果reference有一分钟,且生成的文字比较短,那么生成的音频会很拖沓。如果生成的文字很长,那么会有显存以及hallucination方面的问题,按照作者的建议是以50字为单位切分开 那我理解单次推理最长可以用50个字的音频咯?

> 为什么会需要很长的参考音频?我感觉短的也挺像的呀 主要是用自己录的语音推理结果很不好。或者说你们对于自己录音的音频如何处理的呢?是先做了过滤或者音质增强然后再推理?

> 你的描述有点模糊,效果不好的因素可能很多,你是为什么会怀疑是长度的问题呢? 我们假设是长度的问题,那么应该使用仓库里面提供的自动切割工具,先把长音频切短之后再训练推理呀 我们假设是音质的问题,那就用用工具先处理一下音质 [#568 (comment)](https://github.com/RVC-Boss/GPT-SoVITS/issues/568#issuecomment-1956319044) 好的非常感谢,我试一下。但是我最终是希望部署到Linux上,所以是否有本地部署的音质增强的模型推荐呢?

> https://modelscope.cn/models/iic/speech_frcrn_ans_cirm_16k/summary 非常感谢。其实这个项目里也有语音降噪的模型,但我用我录制的声音再通过语音降噪以后,进行语音克隆,虽然效果有一点提升但是依然不太好,大家通常对录音的音频还需要如何处理呢?