limengtao comments

Results 5 comments of


                                            limengtao

上面这个case的prompt audio以[S1]开头和[S1]结束，似乎是由于这个问题。我将[S1][S2]对照的方式重新构造了prompt audio，缓解了说话人切换出错这个问题。现在遇到了新的问题：我想通过lora训练来稳定音色，数据来源采用了合成数据而非真实数据。数据本身是不包含杂音的，但是训练后，推理出的音频出现了两个bug： 1. 推理崩溃，模型开始无意义输出直到9min 2. 开头或结尾出现奇怪音乐或鼓点类声音的概率变高。 v0.7真的是一个很棒的模型，相比于v0.5能感觉到提升了很多，但是想让他更完美一点还需要解决上面微调的问题。

如何固定音色

+1，同样在寻求这个问题的解决办法

微调训练问题

是的，推理时仍然使用了和训练时相同的reference audio作为prompt audio作为prefix进行续写。我对tts的过程不太熟悉，这里我有两个疑问： 1. 我看推理的时候代码里对spk1和spk2的prompt audio和prompt text进行了合并，推理的时候使用format2和format3对结果的影响是一样的吗。 2. 因为微调的数据格式只支持完整对话形式；那微调后的模型推理时是使用format3形式保持和微调时一致。还是使用format2形式也可以（这里讨论的情形是一人一句话的形式，刻意进行分开）。

微调训练问题

问一下prompt audio选择多长时间比较合适。

limengtao

请问提高音色稳定性的版本大概什么时候出

新版模型说话人切换出错

如何固定音色

微调训练问题

微调训练问题