复现mooer-omni
作者您好,想跟您确认下,第二阶段的训练在第一阶段上新增了tts任务,输入为回复的文本,输出为对应的音频的encodec,那在训练第二阶段的同时,下图中的部分也要带着一起吗?
第三阶段训练也有同样的困惑,输入只有音频adapter,输出为回复音频的encodec?还需要带第二阶段的部分吗?
三个阶段的任务是递增的,用于保证之前音频到文本的效果不受过多的损失。第一阶段是音频到文本的训练;第二阶段增加了文本到音频的训练,第三阶段基于第二阶段又增加了音频到音频的训练。其实如果在引入第0阶段,也就是保持文本到文本的训练的话,最终instruction tuning的模型效果会更好。
第二阶段训练的数据是不是像下面这样: case1: Instruction: Respond to speech input with text。 Input: speech adapter Output: Text
case2: Instruction: Please convert this text into speech Input: text Output: encodec token
第三阶段的数据应该是: Instruction: Answer my question with speech. Input: speech adapter Output: Text + speech encodec token
如果我说的不对,麻烦告知一下正确的训练数据格式。
另外如果我想在你们的模型上进行微调,是不是只需要微调第三阶段就行。
第三阶段包含了case1,case2和case3;我们控制了概率为 0.3,0.3,0.4 来随机简单相关case的数据;微调的话是的
如果想实时的话,应该改进哪里呢?
实时指的是流式的输入还是流式的输出呢?如果是流式的输出,把Generate那里获取latent的部分改成流式的就行