zyb8543d
zyb8543d
1. I use montreal-forced-alignment to do forced align and feed the train data to merlin. 2. i use default duration config parameter set: hidden_layer_size : [1024, 1024, 1024, 1024, 1024,...
@Jackiexiao i check the train data and notice some _warning_ with using montreal-forced-alignment to genarate lab file: 2018-06-06 15:57:01,853 WARNING : --Miss: database/textgrid/mandarin_voice/A11_242.TextGrid 2018-06-06 15:57:01,853 WARNING : --Miss: database/textgrid/mandarin_voice/A11_243.TextGrid 2018-06-06...
@Jackiexiao 我大概回想了一下,我是直接下载的thchs30_250_demo.tar.gz,,thchs30_250_demo.tar.gz包里的数据已经有了labels文件,应该是已经做过alignment的吧,所以应该和我自己有没有做alignment没啥关系,因为我没用新的数据。你觉得有毛病么
@Jackiexiao A11是在训练过程中,自动生成的WAV。 B11是训练完成之后,通过前端获得没有时间戳的lab文件之后生成的。 [wav.zip](https://github.com/Jackiexiao/MTTS/files/2079959/wav.zip)
[feed_forward_6_tanh_01_57PM_June_06_2018.log](https://github.com/Jackiexiao/MTTS/files/2082606/feed_forward_6_tanh_01_57PM_June_06_2018.log) @Jackiexiao 这是其中一个log,没看到你说的那个信息、
从头开始以后,duration model: 2018-06-08 12:07:49,213 INFO main: calculating MCD 2018-06-08 12:07:49,467 INFO main: Develop: DNN -- RMSE: 9.061 frames/phoneme; CORR: 0.659; 2018-06-08 12:07:49,468 INFO main: Test: DNN -- RMSE: 8.584 frames/phoneme;...
我又重新跑了一遍,发现之前生成不了mgc文件是因为他的路径:world/extract_features_for_merlin.py, 我发现他要找的是WORLD/extract_features_for_merlin.py,于是乎将world夹子改成了WORLD,生成mgc成功。 除了将world文件夹,名字改为大写的,什么都没改,第七步生成wav的时又神奇的报错了: 2018-06-08 19:04:07,893 INFO param_generation: processing 2 of 3: /data02/zhangyb/merlin/egs/mandarin_voice/s1/experiments/mandarin_voice/test_synthesis/wav/A11_1.cmp 2018-06-08 19:04:07,949 INFO param_generation: processing 3 of 3: /data02/zhangyb/merlin/egs/mandarin_voice/s1/experiments/mandarin_voice/test_synthesis/wav/A11_2.cmp 2018-06-08 19:04:07,996 INFO main : reconstructing waveform(s) 2018-06-08 19:04:07,997...
[A11_0.lab.txt](https://github.com/Jackiexiao/MTTS/files/2140194/A11_0.lab.txt) [B11_0.lab.txt](https://github.com/Jackiexiao/MTTS/files/2140195/B11_0.lab.txt) @Jackiexiao一直觉得哪里不对,找不出问题,A11和B11文本内容是相同的。 A11是来自thchs30_250_demo.tar.gz,在gmm model指导下生成的lab文件。 B11来通过前端生成的lab文件。 声学模型和时长模型都是没有问题的,是不是没有标韵律的导致的呢?
错误的LAB会导致合成的语音语速快?
看了下确实是时长模型的问题,预测的时间戳和训练的样本时间戳差了100倍。 补充:已经验证,不是时长模型的问题,A.lab和B.lab的时间戳都是由同一个时长模型生成的。A11.wav语速正常,B11.wav语速很快。 [wav_lab.zip](https://github.com/Jackiexiao/MTTS/files/2143760/wav_lab.zip)