MooER icon indicating copy to clipboard operation
MooER copied to clipboard

复现mooer-omni

Open zhiyu112223 opened this issue 1 year ago • 5 comments

作者您好,想跟您确认下,第二阶段的训练在第一阶段上新增了tts任务,输入为回复的文本,输出为对应的音频的encodec,那在训练第二阶段的同时,下图中的部分也要带着一起吗? 第三阶段训练也有同样的困惑,输入只有音频adapter,输出为回复音频的encodec?还需要带第二阶段的部分吗? 截屏2024-12-31 15 22 04

zhiyu112223 avatar Dec 31 '24 07:12 zhiyu112223

三个阶段的任务是递增的,用于保证之前音频到文本的效果不受过多的损失。第一阶段是音频到文本的训练;第二阶段增加了文本到音频的训练,第三阶段基于第二阶段又增加了音频到音频的训练。其实如果在引入第0阶段,也就是保持文本到文本的训练的话,最终instruction tuning的模型效果会更好。

lzl-mt avatar Jan 06 '25 04:01 lzl-mt

第二阶段训练的数据是不是像下面这样: case1: Instruction: Respond to speech input with text。 Input: speech adapter Output: Text

case2: Instruction: Please convert this text into speech Input: text Output: encodec token

第三阶段的数据应该是: Instruction: Answer my question with speech. Input: speech adapter Output: Text + speech encodec token

如果我说的不对,麻烦告知一下正确的训练数据格式。

另外如果我想在你们的模型上进行微调,是不是只需要微调第三阶段就行。

zhiyu112223 avatar Jan 07 '25 06:01 zhiyu112223

第三阶段包含了case1,case2和case3;我们控制了概率为 0.3,0.3,0.4 来随机简单相关case的数据;微调的话是的

lzl-mt avatar Jan 08 '25 11:01 lzl-mt

如果想实时的话,应该改进哪里呢?

zhiyu112223 avatar Jan 08 '25 12:01 zhiyu112223

实时指的是流式的输入还是流式的输出呢?如果是流式的输出,把Generate那里获取latent的部分改成流式的就行

lzl-mt avatar Jan 08 '25 13:01 lzl-mt