Wenwen Qu

Results 8 comments of Wenwen Qu

Thanks for your reply. But Megatron will reduce the total norm among MP group. see: https://github.com/NVIDIA/Megatron-LM/blob/8aa4619f2b2a57b5725026a50ebd2b15e8121482/megatron/optimizer/clip_grads.py#L105 Why we do that on moe grad individual?Will this cause double counting?

> > @Cerberous 我们大概下周会把转换脚本开源 > > 还有就是internevo也没有huggingface版本的MoE modeling.py,这个也会提供嘛? 是的,internlm2-moe之后也会开源。huggingface版本的MoE modeling.py会跟着转换脚本一起提供的。

> > @Cerberous 我们大概下周会把转换脚本开源 > > 还有就是internevo也没有huggingface版本的MoE modeling.py,这个也会提供嘛? 转换脚本目前在 https://github.com/InternLM/InternEvo/pull/271 实现了,可以用 `python transformers/convert2hf_internlm_moe.py --src=*** --tgt=*** --tokenizer=*** --topk=2 ` 转换ckpt试一下

@Cerberous 需要一个7B dense模型到MoE模型的转换脚本,下周会开源到仓库。

@Cerberous 方便提供下配置吗?或者使用的是config/7b_Moe4_sft的配置吗?moe因为gate计算有很多小算子,如果不进行fused的话再加上all2all的开销目前moe的MFU大致只有稠密模型的一半。

好的,我复现一下。您这边用了多少卡跑的?

@Cerberous 目前默认是使用expert parallel策略的,即专家分布在多个设备上进行计算。目前暂时还不支持用户设置expert parallel size。https://github.com/InternLM/InternEvo/pull/240 提供了用户在配置文件里设置ep_size的功能。