enbiwudi comments

Results 6 comments of


                                            enbiwudi

模型训练loss变化是什么样的？

一样，loss快速从8.x降到3.x 效果还没评估看论文似乎也没什么特别的trick，我想后续可能试试把generator部分改成自回归模型和CEloss或许会好一点？但难解决文本+音频流式推理问题

模型训练loss变化是什么样的？

> 一样，loss快速从8.x降到3.x 效果还没评估看论文似乎也没什么特别的trick，我想后续可能试试把generator部分改成自回归模型和CEloss或许会好一点？但难解决文本+音频流式推理问题找到bug了，是我的target_units设置有问题，默认用0来pad了，应该用-100

又找到bug了源码里generator的llama是用的LlamaDecoderLayer，但不知道是不是我的transformers版本问题，attention mask维度不匹配。看了一下llama源码，在LlamaModel里会先做attention mask的升维。所以我之前直接用的LlamaModel，输入input_embedding=hidden_states这么搞的。但是其实LlamaModel里会对LlamaDecoderLayer出来的hidden_states做一次norm操作，而llama omni源码用的hidden_states是未经过norm的。可能是这里的区别。我目前loss从18在逐渐收敛，半个epoch到6.x了，看起来还在收敛。等我有结论再同步hhhh 有兴趣也可以邮箱交流一下：[email protected]

模型训练loss变化是什么样的？

还是不行，推理出来基本都是blank，好怪

模型训练loss变化是什么样的？

> > 又找到bug了源码里generator的llama是用的LlamaDecoderLayer，但不知道是不是我的transformers版本问题，attention mask维度不匹配。看了一下llama源码，在LlamaModel里会先做attention mask的升维。所以我之前直接用的LlamaModel，输入input_embedding=hidden_states这么搞的。但是其实LlamaModel里会对LlamaDecoderLayer出来的hidden_states做一次norm操作，而llama omni源码用的hidden_states是未经过norm的。可能是这里的区别。我目前loss从18在逐渐收敛，半个epoch到6.x了，看起来还在收敛。等我有结论再同步hhhh 有兴趣也可以邮箱交流一下：[[email protected]](mailto:[email protected]) > > 你说的这些情况我们也遇到过，后面是通过手动将attention mask扩展到4维。不过我们还没有做过推理，情况应该也会很差。 ctc_upsample_factort，针对你的数据集调小点试一下

enbiwudi

请问要怎样参与呢

模型训练loss变化是什么样的？

模型训练loss变化是什么样的？

模型训练loss变化是什么样的？

模型训练loss变化是什么样的？

模型训练loss变化是什么样的？