enbiwudi
enbiwudi
哈喽,我是原项目作者,方便留个邮箱交流不
一样,loss快速从8.x降到3.x 效果还没评估 看论文似乎也没什么特别的trick,我想后续可能试试把generator部分改成自回归模型和CEloss或许会好一点?但难解决文本+音频流式推理问题
> 一样,loss快速从8.x降到3.x 效果还没评估 看论文似乎也没什么特别的trick,我想后续可能试试把generator部分改成自回归模型和CEloss或许会好一点?但难解决文本+音频流式推理问题 找到bug了,是我的target_units设置有问题,默认用0来pad了,应该用-100
又找到bug了 源码里generator的llama是用的LlamaDecoderLayer,但不知道是不是我的transformers版本问题,attention mask维度不匹配。看了一下llama源码,在LlamaModel里会先做attention mask的升维。所以我之前直接用的LlamaModel,输入input_embedding=hidden_states这么搞的。但是其实LlamaModel里会对LlamaDecoderLayer出来的hidden_states做一次norm操作,而llama omni源码用的hidden_states是未经过norm的。可能是这里的区别。我目前loss从18在逐渐收敛,半个epoch到6.x了,看起来还在收敛。 等我有结论再同步hhhh 有兴趣也可以邮箱交流一下:[email protected]
还是不行,推理出来基本都是blank,好怪
> > 又找到bug了 源码里generator的llama是用的LlamaDecoderLayer,但不知道是不是我的transformers版本问题,attention mask维度不匹配。看了一下llama源码,在LlamaModel里会先做attention mask的升维。所以我之前直接用的LlamaModel,输入input_embedding=hidden_states这么搞的。但是其实LlamaModel里会对LlamaDecoderLayer出来的hidden_states做一次norm操作,而llama omni源码用的hidden_states是未经过norm的。可能是这里的区别。我目前loss从18在逐渐收敛,半个epoch到6.x了,看起来还在收敛。 等我有结论再同步hhhh 有兴趣也可以邮箱交流一下:[[email protected]](mailto:[email protected]) > > 你说的这些情况我们也遇到过,后面是通过手动将attention mask扩展到4维。不过我们还没有做过推理,情况应该也会很差。 ctc_upsample_factort,针对你的数据集调小点试一下