Cerberous
Cerberous
> @Cerberous 我们大概下周会把转换脚本开源 大佬还有一个问题咨询一下,现在的MoE都是基于internlm1的版本,很多参数都不能设置,有基于internlm2的版本的MoE版本嘛
> @Cerberous 我们大概下周会把转换脚本开源 还有就是internevo也没有huggingface版本的MoE modeling.py,这个也会提供嘛?
> > > @Cerberous 我们大概下周会把转换脚本开源 > > > > > > 还有就是internevo也没有huggingface版本的MoE modeling.py,这个也会提供嘛? > > 是的,internlm2-moe之后也会开源。huggingface版本的MoE modeling.py会跟着转换脚本一起提供的。 好的,非常期待!!!
> > > @Cerberous 我们大概下周会把转换脚本开源 > > > > > > 还有就是internevo也没有huggingface版本的MoE modeling.py,这个也会提供嘛? > > 转换脚本目前在 #271 实现了,可以用 `python transformers/convert2hf_internlm_moe.py --src=*** --tgt=*** --tokenizer=*** --topk=2 ` 转换ckpt试一下 可以啦,非常感谢
> > > @Cerberous 我们大概下周会把转换脚本开源 > > > > > > 还有就是internevo也没有huggingface版本的MoE modeling.py,这个也会提供嘛? > > 转换脚本目前在 #271 实现了,可以用 `python transformers/convert2hf_internlm_moe.py --src=*** --tgt=*** --tokenizer=*** --topk=2 ` 转换ckpt试一下 还有一个问题是我发现提供的hf的modeling_internlm.py里面对shared_experts是直接加到y上的 ```if self.config.num_shared_experts >...
> @Cerberous 方便提供下配置吗?或者使用的是config/7b_Moe4_sft的配置吗?moe因为gate计算有很多小算子,如果不进行fused的话再加上all2all的开销目前moe的MFU大致只有稠密模型的一半。 model = dict( num_chunks=1, # if num_chunks > 1, interleaved pipeline scheduler is used. checkpoint=False, # The proportion of layers for activation aheckpointing, the optional value are...
> 好的,我复现一下。您这边用了多少卡跑的? 我这边就是一台8卡的H800
我来重新描述一下我的问题,我在用internevo训练的时候用的bf16,然后转换成hf后用fp16推理遇到了下述报错 ``` Traceback (most recent call last): File "/InternLM/hf_test.py", line 15, in output = model.generate(**inputs, **gen_kwargs) File "/opt/conda/lib/python3.10/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context return func(*args, **kwargs) File "/opt/conda/lib/python3.10/site-packages/transformers/generation/utils.py", line 1592, in...