5663015

Results 17 comments of 5663015

我也遇到了这个问题,lora、zero2,跑了两次都是卡住,GPU利用率99%。然后AutoConfig加了output_router_logits=True就可以了,不知道是不是这个原因造成的

> > 我也遇到了这个问题,lora、zero2,跑了两次都是卡住,GPU利用率99%。然后AutoConfig加了output_router_logits=True就可以了,不知道是不是这个原因造成的 > > 请问能再说的详细一点吗,是模型的config的output_router_logits=True就行了,还是有别的改变? 是的,模型config的output_router_logits=True就行了,其他的没变

> > > > 我也遇到了这个问题,lora、zero2,跑了两次都是卡住,GPU利用率99%。然后AutoConfig加了output_router_logits=True就可以了,不知道是不是这个原因造成的 > > > > > > > > > 请问能再说的详细一点吗,是模型的config的output_router_logits=True就行了,还是有别的改变? > > > > > > 是的,模型config的output_router_logits=True就行了,其他的没变 > > 为啥我这边试了 还是不行,能贴下配置参数之类的么? ``` --ddp_timeout 36000 \...

> 部署时遇到CUDA extension not installed。并且推理速度特别慢。各位大神如何解决? 可能环境和CUDA版本不匹配,可能显存不够

> 全量finetune,ZeRO3,设置output_router_logits=True。训练过程中会突然卡住,GPU利用率突然到100% ![image](https://private-user-images.githubusercontent.com/96909430/321122435-096c34cf-fb9c-4e1e-b694-47a5a104d6b9.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTI3MzcxNzQsIm5iZiI6MTcxMjczNjg3NCwicGF0aCI6Ii85NjkwOTQzMC8zMjExMjI0MzUtMDk2YzM0Y2YtZmI5Yy00ZTFlLWI2OTQtNDdhNWExMDRkNmI5LnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA0MTAlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwNDEwVDA4MTQzNFomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWEwYzY0OTZiM2ViNDhkMTQ1OGNlZDIxYTg2M2QzNWU2ZTdiMzVjOWM4NzZmZmM2MTY2M2Y3ZDNmNzllMmJiMjgmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.53EFzISqlplFB32hgAgpQjnNU59RkdOL8J78S3rzhS4) 感觉这版MoE还是有问题啊,我试其他的moe没有问题

@HannaMao @Jordan-Pierce I have the same issue. I found that the number of points and boxes must be the same, otherwise error happens (8 boxes and 7 points): ``` Traceback...

> 我将代码修改成这样的了:context_length = len(a_ids) 是的,我也这么改了。不知道为啥会没有bos_token_id

> > 同问,为什么没有bos_token_id。另外eos_token_id和pad_token_id为啥相等,都是2? > > 有bos_id,不过没发现对应的special token,我把代码改成下面了 tokens = prompt_tokens + src_tokens + ["[gMASK]", "sop"] + tgt_tokens + ["eop"] input_ids = tokenizer.convert_tokens_to_ids(tokens) context_length = input_ids.index(tokenizer._convert_token_to_id("sop")) @mathCrazyy 我打印出来bos_id是None?

我也遇到这种情况了,我用单张16G卡,之前512长度的输入在lora rank=4、batch size=2的情况下都能跑起来,现在不行了

> > LoRA指令微调,deepspeed设置为zero2,GPU利用率基本在30%~40%左右,已在AutoConfig里设置了`output_router_logits=True`。非MoE模型正常。 > > 运行环境: > > 除了利用率低,之前还出现过一个问题:Qwen1.5-MoE-A2.7B-Chat训练到80多steps时卡住,GPU利用率突然到99%,然后就一直保持这个状态。运行环境除了`output_router_logits=True`没有设置外,其他都一样。设置了`output_router_logits=True`后正常运行。 > > 你好,你是用的多少卡/显存run起来的? 在单卡80G显存上跑的