Fu Guanyu
Fu Guanyu
> 在aishell3数据中,有些wav文件通过librosa生成振幅向量的时候,振幅大小会超过1 如: SSB08870032.wav 文件的最大振幅为1.0116 导致运行wav2mel.py的时候会中断报错. > > 具体问题如下: 文件 /mtts/utils/stft.py 第248 、249行 为什么要对wav的振幅向量限制在[-1,1]呢 ? 猜测作者是否是对AIShell3数据集做了一些预处理,才使用脚本跑的,能否加个好友讨论讨论模型训练上的一些问题呢 wx:FGY_0214。 有同样的疑问期待作者的回复,另外作者开源的checkpoint是否是代码库中对应 config 配置跑出来的呢,还是有做过调整。
> sure. Pls leave me you email or wechat 作者你好,同样请求参考下训练日志和交流一些细节,wx:FGY_0214,邮箱 [email protected] 感激不尽
I think this is not a bug. The Error info means that you didn't create the mfcc feature successfully, just check the log directory in `split1`, may giving some useful...
> @lancelee98 听了一下我的还是也有噗噗声 这部分只是 AM 模型推理的流式改造, Vocoder 也要做相应的改造才能与非流式的效果对等
> > > @lancelee98 听了一下我的还是也有噗噗声 > > > > > > 这部分只是 AM 模型推理的流式改造, Vocoder 也要做相应的改造才能与非流式的效果对等 > > 是的Vocoder也对AM的输出先做了pad但是还是有噗噗声,您那里有方便推荐的输入给Vocoder的chunk size和pad设置参数嘛? pad 设置到 12 帧(含)以上,且需要确保你的 vocoder 是 casual cnn 而非 cnn,chunk...
> > > @lancelee98 听了一下我的还是也有噗噗声 > > > > > > 这部分只是 AM 模型推理的流式改造, Vocoder 也要做相应的改造才能与非流式的效果对等 > > 是的Vocoder也对AM的输出先做了pad但是还是有噗噗声,您那里有方便推荐的输入给Vocoder的chunk size和pad设置参数嘛? 另外你可以测试下,将这个脚本生成的 mel 特征全部输入到 vocoder 中,看是否还有噗噗声,来验证下am 流式推理部分是不是好的,也辛苦反馈一下结果。后面会将 vocoder 流式改造也上传。