5663015 comments

Results 17 comments of

全参数微调Qwen1.5-MoE-A2.7似乎卡住了，显卡使用率100%，但是没有在训练

我也遇到了这个问题，lora、zero2，跑了两次都是卡住，GPU利用率99%。然后AutoConfig加了output_router_logits=True就可以了，不知道是不是这个原因造成的

全参数微调Qwen1.5-MoE-A2.7似乎卡住了，显卡使用率100%，但是没有在训练

> > 我也遇到了这个问题，lora、zero2，跑了两次都是卡住，GPU利用率99%。然后AutoConfig加了output_router_logits=True就可以了，不知道是不是这个原因造成的 > > 请问能再说的详细一点吗，是模型的config的output_router_logits=True就行了，还是有别的改变？是的，模型config的output_router_logits=True就行了，其他的没变

全参数微调Qwen1.5-MoE-A2.7似乎卡住了，显卡使用率100%，但是没有在训练

> > > > 我也遇到了这个问题，lora、zero2，跑了两次都是卡住，GPU利用率99%。然后AutoConfig加了output_router_logits=True就可以了，不知道是不是这个原因造成的 > > > > > > > > > 请问能再说的详细一点吗，是模型的config的output_router_logits=True就行了，还是有别的改变？ > > > > > > 是的，模型config的output_router_logits=True就行了，其他的没变 > > 为啥我这边试了还是不行，能贴下配置参数之类的么？ ``` --ddp_timeout 36000 \...

Qwen1.5-MoE-A2.7B-Chat微调GPU利用率很低

> 部署时遇到CUDA extension not installed。并且推理速度特别慢。各位大神如何解决？可能环境和CUDA版本不匹配，可能显存不够

Qwen1.5-MoE-A2.7B-Chat微调GPU利用率很低

> 全量finetune，ZeRO3，设置output_router_logits=True。训练过程中会突然卡住，GPU利用率突然到100% ![image](https://private-user-images.githubusercontent.com/96909430/321122435-096c34cf-fb9c-4e1e-b694-47a5a104d6b9.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTI3MzcxNzQsIm5iZiI6MTcxMjczNjg3NCwicGF0aCI6Ii85NjkwOTQzMC8zMjExMjI0MzUtMDk2YzM0Y2YtZmI5Yy00ZTFlLWI2OTQtNDdhNWExMDRkNmI5LnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA0MTAlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwNDEwVDA4MTQzNFomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWEwYzY0OTZiM2ViNDhkMTQ1OGNlZDIxYTg2M2QzNWU2ZTdiMzVjOWM4NzZmZmM2MTY2M2Y3ZDNmNzllMmJiMjgmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.53EFzISqlplFB32hgAgpQjnNU59RkdOL8J78S3rzhS4) 感觉这版MoE还是有问题啊，我试其他的moe没有问题

Multiple Points, Labels, and Boxes while Batch Prompting

@HannaMao @Jordan-Pierce I have the same issue. I found that the number of points and boxes must be the same, otherwise error happens (8 boxes and 7 points): ``` Traceback...

[Help] <bos_token_id in ChatGLM, but not in ChatGLM2>

> 我将代码修改成这样的了：context_length = len(a_ids) 是的，我也这么改了。不知道为啥会没有bos_token_id

[Help] <bos_token_id in ChatGLM, but not in ChatGLM2>

> > 同问，为什么没有bos_token_id。另外eos_token_id和pad_token_id为啥相等，都是2？ > > 有bos_id，不过没发现对应的special token，我把代码改成下面了 tokens = prompt_tokens + src_tokens + ["[gMASK]", "sop"] + tgt_tokens + ["eop"] input_ids = tokenizer.convert_tokens_to_ids(tokens) context_length = input_ids.index(tokenizer._convert_token_to_id("sop")) @mathCrazyy 我打印出来bos_id是None？

[BUG/Help] <title> 采用与 chatglm 1.0 同样的代码进行微调，只更改了数据组成部分，却报显存溢出。

我也遇到这种情况了，我用单张16G卡，之前512长度的输入在lora rank=4、batch size=2的情况下都能跑起来，现在不行了

Qwen1.5-MoE-A2.7B-Chat微调GPU利用率很低

> > LoRA指令微调，deepspeed设置为zero2，GPU利用率基本在30%~40%左右，已在AutoConfig里设置了`output_router_logits=True`。非MoE模型正常。 > > 运行环境： > > 除了利用率低，之前还出现过一个问题：Qwen1.5-MoE-A2.7B-Chat训练到80多steps时卡住，GPU利用率突然到99%，然后就一直保持这个状态。运行环境除了`output_router_logits=True`没有设置外，其他都一样。设置了`output_router_logits=True`后正常运行。 > > 你好，你是用的多少卡/显存run起来的？在单卡80G显存上跑的