IndowK

Results 10 comments of IndowK

很不好意思,我的代码能力比较薄弱。300行是获取mel谱和F0吗内容信息是在mel谱中?

感谢!我还想问一下,是否选用的数据集中每个说话人是内容要尽可能相同?如果内容不同,是否也是需要调参解决?

作者您好!关于训练数据我还想问个问题:用于训练的数据需要剪切掉空白的音频部分吗?如果需要的话,是只删除每条语句的前后空白部分,还是删除整条语音中所有的空白部分?

我的代码基础比较弱,我想请问一下,调节bottleneck的参数是指调节hparams.py中的 dim_neck, dim_neck_2, dim_neck_3吗?

我还有一个猜测,是不是我没有将speakerID加进来? ![image](https://user-images.githubusercontent.com/87264432/233828393-f615532f-2612-44ef-863c-50b4814005d4.png)

感谢您的回复! 我还有一些不明白的地方:1、用于训练的数据集是拼接后的音频,那训练的时候会用到uid吗?2、您提供的demo.pkl中的两个说话人的uid都是003002,这个意思是说话人的第三个语音文件中的第二个语句吗?

感谢您的回复! 我还有一些问题:demo.pkl中的one-hot向量,是由make_metadata中的这段代码生成的吗?: for speaker in sorted(subdirList): print('Processing speaker: %s' % speaker) utterances = [] utterances.append(speaker) _, _, fileList = next(os.walk(os.path.join(dirName,speaker))) # use hardcoded onehot embeddings in order to be cosistent...

> 允许差别的规格和wavenet是对应的音质就不会差到哪里。还是autoencoder本身的问题。你的batch size有多大? 我的batch size设置为2,参数这些我都按照源代码来的,并没有做调整:dim_neck=32,freq=32

我按照论文中的来的,用的是VCTK数据集;我选择了其中mic1的语音,通过audition下采样到16k