jinminxi104
jinminxi104
> Using `CANN` version `8.0.RC1.alpha003` I can successfully run the container. However, after I modify the `device_type` parameter and let `lmdeploy` run API server on `ascend` backend, I got extremely...
> Any image on Docker Hub? No, please use the dockerfile. (some compliance reasons..)
> Will LMDeploy become a competitor to MindIE? Yes, we have graph mode, and capture graph via torch.dynamo.
> > > Will LMDeploy become a competitor to MindIE? > > > > > > Yes, we have graph mode, and capture graph via torch.dynamo. > > I tested...
> > > > > Will LMDeploy become a competitor to MindIE? > > > > > > > > > > > > Yes, we have graph mode, and...
重现完成。。。解决中解决中。。。最近被耽搁了
fixed by https://github.com/InternLM/lmdeploy/pull/3513
> 各位大佬,我升级到了这个pr以后,离线多卡昇腾推理pipeline还是会卡死。有大佬遇到过离线的推理卡死吗? > > 使用的lmdeploy版本 0.8.0(具体提交是13b2b5c74ec1d80ec26ee4b8bbcdaec87f406f6c)和dlinfer 0.1.8(具体提交是cf7b6e362c7d13f26be42708fb690cb4354b2eef) > > 具体离线推理模式是开启一个pipeline(internlm2.5-7b-chat,tp=2,昇腾910B,eagermode和graphmode都试了会卡死),然后一个一个去pipe 200条prompt,每条prompt pipe两遍。在pipe200条的过程中有相当大的概率卡死,HCCL_EXEC_TIMEOUT以后同样报ACL stream synchronize的507048号错误。 尝试下升级cann到8.1.beta1以上,包括kernel。主要还是用graphmode 还有问题请给一个完整的复现,我们这里再看看。
> > > 各位大佬,我升级到了这个pr以后,离线多卡昇腾推理pipeline还是会卡死。有大佬遇到过离线的推理卡死吗? > > > 使用的lmdeploy版本 0.8.0(具体提交是13b2b5c74ec1d80ec26ee4b8bbcdaec87f406f6c)和dlinfer 0.1.8(具体提交是cf7b6e362c7d13f26be42708fb690cb4354b2eef) > > > 具体离线推理模式是开启一个pipeline(internlm2.5-7b-chat,tp=2,昇腾910B,eagermode和graphmode都试了会卡死),然后一个一个去pipe 200条prompt,每条prompt pipe两遍。在pipe200条的过程中有相当大的概率卡死,HCCL_EXEC_TIMEOUT以后同样报ACL stream synchronize的507048号错误。 > > > > > > 尝试下升级cann到8.1.beta1以上,包括kernel。主要还是用graphmode 还有问题请给一个完整的复现,我们这里再看看。 > > 910b1上的驱动版本为24.1.rc2.b030,使用lmdeploy官方提供docker crpi-4crprmm5baj1v8iv.cn-hangzhou.personal.cr.aliyuncs.com/lmdeploy_dlinfer/ascend:910b-latest...