sixyang

Results 11 comments of sixyang

> 大佬您的代码不开源了吗?已经找不到了~

这里给的语音克隆是调整的 acoustic model,但是我 loss 降的很低仍然效果不明显。一方面可以试着依照 voc1 里面训练一下 vocoder,另一方面照着 ge2e 里面训练一下 speaker_encoder 模型。 同时,Aishell3 里面数据女声居多,我发现男声低音模型根本学不到,所以做声音克隆男声效果比较差,这个需要自己弄数据训练一下。同时也期待官方的解法,希望推出 vits 版本的声音克隆~

> 声纹提取可以尝试换成我们的 ecapa tdnn, 模型 这也是我们接下来会尝试的操作 沙沙声可能是声码器不好,可以换成 hifigan_aishell3 试试 vits 版本的声音克隆近期应该不会尝试,因为 vits 训练成本太高~ 感谢提供 vc1 的训练方式!我这边自己再训练的时候,发现 vc1 只是训练 acoustic model,在你们的基础上继续训练也没有取得更好的效果(听感上),然后我尝试着线训练 voc1 的 parallel wavegan,然后再接到 vc1 上。但是发现 loss 不降反升,不知道是不是过拟合了……(我这边都是修改了部分源代码,把模型换成你们提供的 checkpoint,再继续训练),实际听感测试也没有什么提升。 然后我就想可能跟...

> [https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/other/tts_finetune/tts3](https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/other/tts_finetune/tts3?rgh-link-date=2022-09-02T05%3A44%3A53Z) TTS、voice_clone 都可以尝试下开源模型的finetune策略,比自己从零训练效果好很多。 aishell3 微调的话,感觉效果还不是很好,本身基于 aishell3 的 tts 模型的效果感觉没有 csmsc 等单 speaker 好

> @Lennon-cheng 目前正在尝试用 ecapa tdnn 作为声纹模型,可以缓解 “沙沙” 的问题,关注这个 issue #2296 @sixyang 可以尝试换成使用 csmsc 的声码器,目前我们正在尝试一系列冻结层的操作,或许可以用更少的音频获取更好的效果 声码器跟数据集不相关嘛?csmsc 的声码器能够直接应用到 aishell3 上面吗?

请问这个功能现在有上线吗?aishell 数据集有使用案例吗?

> original wer of g2p: The `avg WER` of g2p is: 0.026014352515701198 > > ``` > ,--------------------------------------------------------------------. > | | # Snt # Wrd | Corr Sub Del Ins Err...

请问从听感上来说,ErnieSAT 相对于 fastspeech2+pwgan 有什么区别吗?效果会更好一些?

> 很棒的项目,仅zero-shot就已经效果很好,小问题很多,最致命的就是这个吞字和重复的问题,而且这些问题和提供的text内容有关系,是可以复现的。希望能尽快优化 确实有重复问题有些严重,我fine-tune了几个模型都遇到这个问题

hello, the bottleneck is not `write_video`, is the for-loop and `iter_frames` function.