limengtao

Results 5 comments of limengtao

> 新版本已经在进行内部测试中,预计1到2周内发布。 非常期待,速速公布测试一下

上面这个case的prompt audio以[S1]开头和[S1]结束,似乎是由于这个问题。 我将[S1][S2]对照的方式重新构造了prompt audio,缓解了说话人切换出错这个问题。 现在遇到了新的问题:我想通过lora训练来稳定音色,数据来源采用了合成数据而非真实数据。数据本身是不包含杂音的,但是训练后,推理出的音频出现了两个bug: 1. 推理崩溃,模型开始无意义输出直到9min 2. 开头或结尾出现奇怪音乐或鼓点类声音的概率变高。 v0.7真的是一个很棒的模型,相比于v0.5能感觉到提升了很多,但是想让他更完美一点还需要解决上面微调的问题。

+1,同样在寻求这个问题的解决办法

是的,推理时仍然使用了和训练时相同的reference audio作为prompt audio作为prefix进行续写。 我对tts的过程不太熟悉,这里我有两个疑问: 1. 我看推理的时候代码里对spk1和spk2的prompt audio和prompt text进行了合并,推理的时候使用format2和format3对结果的影响是一样的吗。 2. 因为微调的数据格式只支持完整对话形式;那微调后的模型推理时是使用format3形式保持和微调时一致。还是使用format2形式也可以(这里讨论的情形是一人一句话的形式,刻意进行分开)。

问一下prompt audio选择多长时间比较合适。