MooER 复现mooer-omni

作者您好，想跟您确认下，第二阶段的训练在第一阶段上新增了tts任务，输入为回复的文本，输出为对应的音频的encodec，那在训练第二阶段的同时，下图中的部分也要带着一起吗？第三阶段训练也有同样的困惑，输入只有音频adapter，输出为回复音频的encodec？还需要带第二阶段的部分吗？截屏2024-12-31 15 22 04

Dec 31 '24 07:12 zhiyu112223

三个阶段的任务是递增的，用于保证之前音频到文本的效果不受过多的损失。第一阶段是音频到文本的训练；第二阶段增加了文本到音频的训练，第三阶段基于第二阶段又增加了音频到音频的训练。其实如果在引入第0阶段，也就是保持文本到文本的训练的话，最终instruction tuning的模型效果会更好。

Jan 06 '25 04:01 lzl-mt

第二阶段训练的数据是不是像下面这样： case1: Instruction: Respond to speech input with text。 Input: speech adapter Output: Text

case2: Instruction: Please convert this text into speech Input: text Output: encodec token

第三阶段的数据应该是： Instruction: Answer my question with speech. Input: speech adapter Output: Text + speech encodec token

如果我说的不对，麻烦告知一下正确的训练数据格式。

另外如果我想在你们的模型上进行微调，是不是只需要微调第三阶段就行。

Jan 07 '25 06:01 zhiyu112223

第三阶段包含了case1，case2和case3；我们控制了概率为 0.3,0.3,0.4 来随机简单相关case的数据；微调的话是的

Jan 08 '25 11:01 lzl-mt

如果想实时的话，应该改进哪里呢？

Jan 08 '25 12:01 zhiyu112223

实时指的是流式的输入还是流式的输出呢？如果是流式的输出，把Generate那里获取latent的部分改成流式的就行

Jan 08 '25 13:01 lzl-mt