heliqi comments

Results 94 comments of


                                            heliqi

@ihula 我在我们这边的windows电脑上实测了下，由于模型比较大，确实需要比较久的推理时间。如果你对推理时间要求比较高，可以考虑下小一点的yolov3模型；也可以考虑使用GPU进行推理。测试环境：Intel Core i9-9900 CPU 8物理核16个虚拟核；vs2019；开启mkl加速模型:官网提供的[FasterRCNN](https://paddlex.readthedocs.io/zh_CN/develop/train/prediction.html#id6) 测试图片: 模型中附带的 640 * 480的图片在预热后，100次平均推理时间为: 1.4s

detector检测一张图片时间太长

> > @ihula 我在我们这边的windows电脑上实测了下，由于模型比较大，确实需要比较久的推理时间。 GPU进行推理。 > > 测试环境：英特尔Core i9-9900 CPU 8物理核16个虚拟核; vs2019;开启MKL加速 > > 模型：官网提供的[FasterRCNN](https://paddlex.readthedocs.io/zh_CN/develop/train/prediction.html#id6) > > 测试图片：模型中附带的640 * 480图片的 > > 在预热后，100次平均推理时间为：1.4秒 > > 你好，我尝试过编译后开启GPU加载图片，但是没有输出预测结果，我修改了预测保存结果，保留roi区，显示不工作 @xialei2821212670 显示不工作是？你可以试着在代码中加入打印，看运行到哪一步导致的报错。比如从下面这一行看是图片读取报错、还是model.predict推理报错、还是其他的地方错误。希望你能提供更详细的信息 [打印的地方](https://github.com/PaddlePaddle/PaddleX/blob/f323aff1d9a4674d0462ce12ecd8c23727acd5f7/deploy/cpp/demo/detector.cpp#L126)

关于多张图片同时推理的问题

请问是用的C++的batch_infer的demo？如果是c++推理： 1. 可以修改 batch_ifner.cpp的第81行 model->Predict(im_vec, &results) ，在里边多传入一个thread_num参数，提高前后处理的并行化 2. 可以使用multi_gpu_model_infer.cpp 的demo。单卡情况下gpu_id参数可以传入 0,0 这样会启动2个线程处理batch的数据（注意不能设置太多线程，太多会导致显存爆掉+显存利用率不高，看模型大小和batch大小设置在2～8最佳）

关于多张图片同时推理的问题

查不多。第一种是cpu层面对前后处理进行并行加速， gpu层面交给引擎进行batch加速；第二种是前后处理+引擎推理整个推理逻辑进行并行

Paddle Inference 将所有参数与 OP放在 GPU 上推理模型

有些op目前不支持转换到trt，会退回到走paddle原生算子。这个需要提供下模型具体分析，才能确定是否能支持全部进入trt。顺便问下: 目前trt int8的性能不满足需求？在什么GPU卡上，需要提升到多少才能满足需求？你们的业务场景是？

Paddle Inference 将所有参数与 OP放在 GPU 上推理模型

方便提供下模型和简单运行的demo吗？能不能把op都放入trt子图需要具体针对op看下才能给你答复。你说的纯计算时间是统计了整个 predictor.run(copyfromcpu、copytocpu没统计) 还是说通过profile把各个op的计算时间加起来？

Paddle Inference 将所有参数与 OP放在 GPU 上推理模型

1. 你使用的paddle inference库是多少版本？ 2. 我看你有使用过debug模式(`config.switch_ir_debug()`), 能用visualdl或netron看看经过所有pass之后的图吗(即“_opt_cache”目录里数字最大的那个 xx_xxx.pdmodel) 3. 可以参考这个 [文档](https://github.com/PaddlePaddle/Paddle-Inference-Demo/blob/master/docs-official/guides/performance_tuning/performance_analysis_profiler.md) ，用 NVIDIA Nsight Systems 可视化图确认下 : GpuMemcpyAsync:GPU->CPU 主要由哪些算子导致的 ,上面的profile不能确定。如果在工具使用上有一些问题，方便的话可以加我qq或微信咨询

Paddle Inference 将所有参数与 OP放在 GPU 上推理模型

不用看 .dot，可视化看.pdmodel。这个是经过pass之后保存的模型图

Paddle Inference 将所有参数与 OP放在 GPU 上推理模型

xxx