Yixiao Chen
Yixiao Chen
各位大佬,我升级到了这个pr以后,离线多卡昇腾推理pipeline还是会卡死。有大佬遇到过离线的推理卡死吗? 使用的lmdeploy版本 0.8.0(具体提交是13b2b5c74ec1d80ec26ee4b8bbcdaec87f406f6c)和dlinfer 0.1.8(具体提交是cf7b6e362c7d13f26be42708fb690cb4354b2eef) 具体离线推理模式是开启一个pipeline(internlm2.5-7b-chat,tp=2,昇腾910B,eagermode和graphmode都试了会卡死),然后一个一个去pipe 200条prompt,每条prompt pipe两遍。在pipe200条的过程中有相当大的概率卡死,HCCL_EXEC_TIMEOUT以后同样报ACL stream synchronize的507048号错误。
> 尝试下升级cann到8.1.beta1以上,包括kernel。主要还是用graphmode 还有问题请给一个完整的复现,我们这里再看看。 了解谢谢,我现在是公司的公用cann 8.0.0,过几天我想办法升级一把
Thank you! Sure, [qwen_tests.zip](https://github.com/user-attachments/files/19430270/qwen_tests.zip) This file includes my test scripts and outputs for your prompt (`qwen_angelo.py` for script and `qwen_angelo.txt` for output), and my long prompt (`qwen_harry.py` for script and...
@RunningLeon 您好,请问这个bug有进一步的结果了吗,谢谢~
Thanks for your reply, looking forward to LMDeploy getting better!
@RunningLeon 关于这个问题,最近我观察到一些新的现象:昇腾910B也同样会出现问题(不论单卡多卡),且开启图模式以后推理不一致率更高。我拿昇腾910B tp=2一条一条推理200个prompt(每个prompt推理两次以检查prefix cache后的输出一致性),eager模式200条中会有6条左右不一致,graph模式200会有24条左右不一致。 请问开启prefix cache后同样prompt输出结果不一致的问题在新版本中是否已经修复,或者有修复的计划呢,谢谢☺️
@RunningLeon Thank you for your this information. This PR is tested OK for `qwen_angelo.py` and `qwen_harry.py` using Qwen2.5-7B-Instruct or Internlm2.5-7b-chat in my device. :-D However, the `qwen_harry.py` still have the...