DeepResearch
DeepResearch copied to clipboard
关于模型选型
hi 感谢通义开源这么棒的工作!这里我想请教一些问题~
- 为什么选择MoE模型去做训练,而不是非MoE的,这有什么考量或者在性能优势吗?或者为什么不用Qwen3-32B模型去训练呢
- MoE模型在训练时和普通非MoE模型在训练上有什么特殊的设置差异吗?还是可以通用?(之前了解到MoE模型似乎微调并没那么容易)
再次感谢!
- 一方面是Qwen-3没有大规模的dense模型,另一方面更多的是效率和scaling问题,我们选择MOE的原因和选择所有大模型厂商普遍选择MOE模型的理由没有太多区别
- 主流框架Megatron,Llamafactory之类的都支持MOE训练,可以看一下开源的训练框架
- 一方面是Qwen-3没有大规模的dense模型,另一方面更多的是效率和scaling问题,我们选择MOE的原因和选择所有大模型厂商普遍选择MOE模型的理由没有太多区别
- 主流框架Megatron,Llamafactory之类的都支持MOE训练,可以看一下开源的训练框架
感谢您的回答!不过第一点我还是有点好奇哈。咱们开源的是30B-A3B模型,但是Qwen3有32B的dense模型,有尝试过Qwen3-32B对比Qwen3-30B-A3B的效果吗