TeslaZhao

Results 88 comments of TeslaZhao

这是原生Windows系统上运行吗?

您好,pipeline部署占用的显存大小和多个因素相关。 1)和config.yml中每个op的concurrency设置有关系; 2)和模型计算精度相关; 3)计算过程中显存2次分配有关。 另外,您可以按此方法排查: 1.每个模型初始占用的显存(concurrency=1); 2.服务启动后未接收请求,看初始显存占用量; 3.服务接收大量请求课后,显存增量 最终确定显存占满的原因

对于模型在推理过程中分配显存是正常现象,要降低显存大小,一般会开启 低精度fp16,或者模型量化int8。同时可支持开启TensorRT。 示例:https://github.com/PaddlePaddle/Serving/blob/v0.6.0/python/examples/pipeline/simple_web_service/config.yml 文档:https://github.com/PaddlePaddle/Serving/blob/v0.6.0/doc/LOW_PRECISION_DEPLOYMENT_CN.md

使用的Paddle的版本,以及Serving的版本是?

转换模型过程有报错吗?

core的信息截图发一下吗?还有这台报错的机器和其他机器有哪些不同呢?

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/neural_search/recall/in_batch_negative/deploy/python

1. C++ Serving 支持 paddle模型的TensorRT部署 2. paddle serving 提供的GPU镜像都是带有TensorRT的,并且Paddle Serving的 C++ 安装包里也带有TensorRT,不用自己编译。相关链接: 1)使用Docker安装Paddle Serving:https://github.com/PaddlePaddle/Serving/blob/v0.9.0/doc/Install_CN.md 2)Docker镜像列表:https://github.com/PaddlePaddle/Serving/blob/v0.9.0/doc/Docker_Images_CN.md 3)TensorRT使用方法:https://github.com/PaddlePaddle/Serving/blob/v0.9.0/doc/Serving_Configure_CN.md#c-serving 4)TensorRT动态shape使用方案:https://github.com/PaddlePaddle/Serving/blob/v0.9.0/doc/TensorRT_Dynamic_Shape_CN.md

Paddle Serving 不支持原生 windows环境运行