zyb8543d comments

Results 95 comments of


                                            zyb8543d

synthetic speech pacing is very fast with frontend script

1. I use montreal-forced-alignment to do forced align and feed the train data to merlin. 2. i use default duration config parameter set: hidden_layer_size : [1024, 1024, 1024, 1024, 1024,...

synthetic speech pacing is very fast with frontend script

@Jackiexiao i check the train data and notice some _warning_ with using montreal-forced-alignment to genarate lab file: 2018-06-06 15:57:01,853 WARNING : --Miss: database/textgrid/mandarin_voice/A11_242.TextGrid 2018-06-06 15:57:01,853 WARNING : --Miss: database/textgrid/mandarin_voice/A11_243.TextGrid 2018-06-06...

synthetic speech pacing is very fast with frontend script

@Jackiexiao 我大概回想了一下，我是直接下载的thchs30_250_demo.tar.gz,，thchs30_250_demo.tar.gz包里的数据已经有了labels文件，应该是已经做过alignment的吧，所以应该和我自己有没有做alignment没啥关系，因为我没用新的数据。你觉得有毛病么

synthetic speech pacing is very fast with frontend script

@Jackiexiao A11是在训练过程中，自动生成的WAV。 B11是训练完成之后，通过前端获得没有时间戳的lab文件之后生成的。 [wav.zip](https://github.com/Jackiexiao/MTTS/files/2079959/wav.zip)

synthetic speech pacing is very fast with frontend script

[feed_forward_6_tanh_01_57PM_June_06_2018.log](https://github.com/Jackiexiao/MTTS/files/2082606/feed_forward_6_tanh_01_57PM_June_06_2018.log) @Jackiexiao 这是其中一个log,没看到你说的那个信息、

synthetic speech pacing is very fast with frontend script

从头开始以后，duration model: 2018-06-08 12:07:49,213 INFO main: calculating MCD 2018-06-08 12:07:49,467 INFO main: Develop: DNN -- RMSE: 9.061 frames/phoneme; CORR: 0.659; 2018-06-08 12:07:49,468 INFO main: Test: DNN -- RMSE: 8.584 frames/phoneme;...

synthetic speech pacing is very fast with frontend script

我又重新跑了一遍，发现之前生成不了mgc文件是因为他的路径：world/extract_features_for_merlin.py, 我发现他要找的是WORLD/extract_features_for_merlin.py,于是乎将world夹子改成了WORLD，生成mgc成功。除了将world文件夹，名字改为大写的，什么都没改，第七步生成wav的时又神奇的报错了： 2018-06-08 19:04:07,893 INFO param_generation: processing 2 of 3: /data02/zhangyb/merlin/egs/mandarin_voice/s1/experiments/mandarin_voice/test_synthesis/wav/A11_1.cmp 2018-06-08 19:04:07,949 INFO param_generation: processing 3 of 3: /data02/zhangyb/merlin/egs/mandarin_voice/s1/experiments/mandarin_voice/test_synthesis/wav/A11_2.cmp 2018-06-08 19:04:07,996 INFO main : reconstructing waveform(s) 2018-06-08 19:04:07,997...

synthetic speech pacing is very fast with frontend script

[A11_0.lab.txt](https://github.com/Jackiexiao/MTTS/files/2140194/A11_0.lab.txt) [B11_0.lab.txt](https://github.com/Jackiexiao/MTTS/files/2140195/B11_0.lab.txt) ＠Jackiexiao一直觉得哪里不对，找不出问题，A11和B11文本内容是相同的。 A11是来自thchs30_250_demo.tar.gz，在gmm model指导下生成的lab文件。 B11来通过前端生成的lab文件。声学模型和时长模型都是没有问题的，是不是没有标韵律的导致的呢？

synthetic speech pacing is very fast with frontend script

错误的LAB会导致合成的语音语速快？

synthetic speech pacing is very fast with frontend script

看了下确实是时长模型的问题，预测的时间戳和训练的样本时间戳差了100倍。补充：已经验证，不是时长模型的问题，A.lab和B.lab的时间戳都是由同一个时长模型生成的。A11.wav语速正常，B11.wav语速很快。 [wav_lab.zip](https://github.com/Jackiexiao/MTTS/files/2143760/wav_lab.zip)