魏云飞 comments

Results 5 comments of


                                            魏云飞

build(ascend): add Dockerfile for ascend aarch64 910B

构建好docker镜像后运行：lmdeploy serve api_server Qwen2-7B-Instruct --backend pytorch 得到的报错： ![image](https://github.com/user-attachments/assets/c430097a-d844-4d2b-9595-e8fc971c4461) 但是triton这个库在aarch64上没有提供预编译好的包，自行编译也失败了。

build(ascend): add Dockerfile for ascend aarch64 910B

> > 构建好docker镜像后运行：lmdeploy serve api_server Qwen2-7B-Instruct --backend pytorch 得到的报错： ![image](https://private-user-images.githubusercontent.com/11344328/358074156-c430097a-d844-4d2b-9595-e8fc971c4461.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MjM2OTk1ODMsIm5iZiI6MTcyMzY5OTI4MywicGF0aCI6Ii8xMTM0NDMyOC8zNTgwNzQxNTYtYzQzMDA5N2EtZDg0NC00ZDJiLTk1OTUtZThmYzk3MWM0NDYxLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA4MTUlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwODE1VDA1MjEyM1omWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWMwYWM2NjkwMzA3YmE5MGZmYjU3OTY0NDA4ZDRjMzhhNDExNTU4MDk5NGE2OGM5YjliODU1NGYxMTg5YTQzYjUmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.ngXxJnKL6zDwaIexplXktvxYB9lhtYwRU3sKlqS4-8c) 但是triton这个库在aarch64上没有提供预编译好的包，自行编译也失败了。 > > @yunfwe 目前支持的模型为 llama2-7b, internlm2-7b, mixtral-8x7b，可以参考以下脚本进行静态的推理，chat版本的功能还在开发中： > > ```python > import deeplink_ext > import lmdeploy > from lmdeploy...

魏云飞

build(ascend): add Dockerfile for ascend aarch64 910B

build(ascend): add Dockerfile for ascend aarch64 910B

调用/v1/chat/completions接口,用jmeter10并发进行压测，压测1分钟xinference就挂了，xinference==0.11.3

调用/v1/chat/completions接口,用jmeter10并发进行压测，压测1分钟xinference就挂了，xinference==0.11.3

调用/v1/chat/completions接口,用jmeter10并发进行压测，压测1分钟xinference就挂了，xinference==0.11.3