MOSS-TTSD
MOSS-TTSD copied to clipboard
微调训练问题
非常棒的工作!! 我看到作者在问题中有回复到,使用10min数据lora训练50轮就可以在克隆音色稳定性上取得一个不错的效果。 我有两个疑问:
- lora训练后我觉得音色还是不太稳定,请问作者的参数是怎么设置的,是默认参数吗。
- 数据组织形式是不是最好组织为多条。
感谢反馈!
请问在推理的时候有提供 微调音色作为参考音频吗?
是的,推理时仍然使用了和训练时相同的reference audio作为prompt audio作为prefix进行续写。 我对tts的过程不太熟悉,这里我有两个疑问:
- 我看推理的时候代码里对spk1和spk2的prompt audio和prompt text进行了合并,推理的时候使用format2和format3对结果的影响是一样的吗。
- 因为微调的数据格式只支持完整对话形式;那微调后的模型推理时是使用format3形式保持和微调时一致。还是使用format2形式也可以(这里讨论的情形是一人一句话的形式,刻意进行分开)。
format3就是format2单纯拼接起来,本质是一样。 在训练数据较少的情况下组织为多条可能会有更好的效果。 我们使用的是默认参数,因为使用的数据不同,你可以尝试调整一下学习率,训练epoch数和lora参数。
问一下prompt audio选择多长时间比较合适。
请问准备微调的数据量多少为宜?训练样本数?
-
<data_name>.pkl:包含处理好的训练样本(input_ids 与 labels) -
<data_name>_metas.npy:偏移元数据,加速加载。 另外,我对[S1][S2]均用同一个人声音制作,推理时,[s1]非常像真人,[S2]却差异很大。