Fu Guanyu comments

Results 6 comments of


                                            Fu Guanyu

AISHELL3某些数据生成梅尔频谱失败的问题

> 在aishell3数据中,有些wav文件通过librosa生成振幅向量的时候,振幅大小会超过1 如: SSB08870032.wav 文件的最大振幅为1.0116 导致运行wav2mel.py的时候会中断报错. > > 具体问题如下: 文件 /mtts/utils/stft.py 第248 、249行为什么要对wav的振幅向量限制在[-1,1]呢 ? 猜测作者是否是对AIShell3数据集做了一些预处理，才使用脚本跑的，能否加个好友讨论讨论模型训练上的一些问题呢 wx：FGY_0214。有同样的疑问期待作者的回复，另外作者开源的checkpoint是否是代码库中对应 config 配置跑出来的呢，还是有做过调整。

can you share your training logs and models?

> sure. Pls leave me you email or wechat 作者你好，同样请求参考下训练日志和交流一些细节，wx：FGY_0214，邮箱 [email protected] 感激不尽

[BUG] FileNotFoundError: [Errno 2] No such file or directory: '/root/Documents/MFA/chunjiao_0310/corpus_data/split1/feats.pinyin-lexicon-r.0.scp'

I think this is not a bug. The Error info means that you didn't create the mfcc feature successfully, just check the log directory in `split1`, may giving some useful...

add function of am streaming inference

> @lancelee98 听了一下我的还是也有噗噗声这部分只是 AM 模型推理的流式改造， Vocoder 也要做相应的改造才能与非流式的效果对等

add function of am streaming inference

> > > @lancelee98 听了一下我的还是也有噗噗声 > > > > > > 这部分只是 AM 模型推理的流式改造， Vocoder 也要做相应的改造才能与非流式的效果对等 > > 是的Vocoder也对AM的输出先做了pad但是还是有噗噗声，您那里有方便推荐的输入给Vocoder的chunk size和pad设置参数嘛？ pad 设置到 12 帧（含）以上，且需要确保你的 vocoder 是 casual cnn 而非 cnn，chunk...

add function of am streaming inference

> > > @lancelee98 听了一下我的还是也有噗噗声 > > > > > > 这部分只是 AM 模型推理的流式改造， Vocoder 也要做相应的改造才能与非流式的效果对等 > > 是的Vocoder也对AM的输出先做了pad但是还是有噗噗声，您那里有方便推荐的输入给Vocoder的chunk size和pad设置参数嘛？另外你可以测试下，将这个脚本生成的 mel 特征全部输入到 vocoder 中，看是否还有噗噗声，来验证下am 流式推理部分是不是好的，也辛苦反馈一下结果。后面会将 vocoder 流式改造也上传。