DeepResearch 关于模型选型

hi 感谢通义开源这么棒的工作！这里我想请教一些问题～

再次感谢！

Sep 22 '25 08:09 qilong-zhang

一方面是Qwen-3没有大规模的dense模型，另一方面更多的是效率和scaling问题，我们选择MOE的原因和选择所有大模型厂商普遍选择MOE模型的理由没有太多区别
主流框架Megatron，Llamafactory之类的都支持MOE训练，可以看一下开源的训练框架

Sep 22 '25 14:09 likuanppd

一方面是Qwen-3没有大规模的dense模型，另一方面更多的是效率和scaling问题，我们选择MOE的原因和选择所有大模型厂商普遍选择MOE模型的理由没有太多区别

主流框架Megatron，Llamafactory之类的都支持MOE训练，可以看一下开源的训练框架

感谢您的回答！不过第一点我还是有点好奇哈。咱们开源的是30B-A3B模型，但是Qwen3有32B的dense模型，有尝试过Qwen3-32B对比Qwen3-30B-A3B的效果吗

Sep 23 '25 02:09 qilong-zhang