xuriliuhen
xuriliuhen
微信群又超过200人,加不进去了,求拉微信群 微信号:xuriliuhen 谢谢
> @xuriliuhen 昨晚已经更新readme中二维码 谢谢谢谢,已进群。
我是按照 https://montreal-forced-aligner.readthedocs.io/en/latest/first_steps/index.html#first-steps-align-pretrained 里面case3的流程跑的。 最开始是拿AISHELL-3的数据集重新训练了pinyin方式的音素词典和声学模型,但是同样的对齐模型,用自己采集的中文数据集训练后的效果不清楚,没AISHELL-3数据集训练的效果好,是不是因为pinyin的对齐模型没官方提供的其他模型对齐效果好呀?
> 原作给的代码,生成的lab文件是拼音的,但是如果使用mfa官方方法直接对拼音对齐的话,由于mfa官方提供的拼音词典不正确,会导致textgrid里的phone全是spn。 将生成lab文件的代码/preprocessor/preprocessor.py中的:text = text.split(" ")[1::2] 改成text = text.split(" ")[0::2] ,这样获得的lab是中文数据,再用mfa给的词典和声学模型对齐就可以了 我安装你的方法跑了AISHELL3的数据集和自己采集的数据集,AISHELL3的语音合成效果要好,自己采集的数据集合成后听着很多杂音,请问这个是什么问题呢,自己的数据集本身也是在安静环境下采集并没有很多杂音的。
> > > 原作给的代码,生成的lab文件是拼音的,但是如果使用mfa官方方法直接对拼音对齐的话,由于mfa官方提供的拼音词典不正确,会导致textgrid里的phone全是spn。 将生成lab文件的代码/preprocessor/preprocessor.py中的:text = text.split(" ")[1::2] 改成text = text.split(" ")[0::2] ,这样获得的lab是中文数据,再用mfa给的词典和声学模型对齐就可以了 > > > > > > 我安装你的方法跑了AISHELL3的数据集和自己采集的数据集,AISHELL3的语音合成效果要好,自己采集的数据集合成后听着很多杂音,请问这个是什么问题呢,自己的数据集本身也是在安静环境下采集并没有很多杂音的。 > > 请问这个问题解决了吗 我也是用自己的数据集跑的效果不好 不确定这个具体是什么问题了,可能是没有预训练模型吧。我现在改用PaddleSpeech了,里面也包含FastSpeech2的具体实现,还提供了AISHELL3的预训练模型,可以把自己数据在提供的预训练模型上训练,效果比这个项目的效果要好很多。
我也遇到了这个问题,有两段语音,第一段正常播放,第二段点击播放就是没有声音,目前还没确定是什么问题。
应该是音频采样率的问题,我测着 软件读取44100Hz的语音播放就没有声音,但是采样率改为16KHz后读取就正常可以播放声音了。