heliqi

Results 94 comments of heliqi

第二台电脑有进行编译和相关设置么, 还有cuda等环境是否符合要求

@ihula 我在我们这边的windows电脑上实测了下,由于模型比较大,确实需要比较久的推理时间。如果你对推理时间要求比较高,可以考虑下小一点的yolov3模型;也可以考虑使用GPU进行推理。 测试环境:Intel Core i9-9900 CPU 8物理核16个虚拟核;vs2019;开启mkl加速 模型:官网提供的[FasterRCNN](https://paddlex.readthedocs.io/zh_CN/develop/train/prediction.html#id6) 测试图片: 模型中附带的 640 * 480的图片 在预热后,100次平均推理时间为: 1.4s

> > @ihula 我在我们这边的windows电脑上实测了下,由于模型比较大,确实需要比较久的推理时间。 GPU进行推理。 > > 测试环境:英特尔Core i9-9900 CPU 8物理核16个虚拟核; vs2019;开启MKL加速 > > 模型:官网提供的[FasterRCNN](https://paddlex.readthedocs.io/zh_CN/develop/train/prediction.html#id6) > > 测试图片:模型中附带的640 * 480图片的 > > 在预热后,100次平均推理时间为:1.4秒 > > 你好,我尝试过编译后开启GPU加载图片,但是没有输出预测结果,我修改了预测保存结果,保留roi区,显示不工作 @xialei2821212670 显示不工作是? 你可以试着在代码中加入打印,看运行到哪一步导致的报错。比如从下面这一行看是图片读取报错、还是model.predict推理报错、还是其他的地方错误。希望你能提供更详细的信息 [打印的地方](https://github.com/PaddlePaddle/PaddleX/blob/f323aff1d9a4674d0462ce12ecd8c23727acd5f7/deploy/cpp/demo/detector.cpp#L126)

请问是用的C++的batch_infer的demo? 如果是c++推理: 1. 可以修改 batch_ifner.cpp的第81行 model->Predict(im_vec, &results) , 在里边多传入 一个thread_num参数, 提高前后处理的并行化 2. 可以使用multi_gpu_model_infer.cpp 的demo。 单卡情况下gpu_id参数可以传入 0,0 这样会启动2个线程处理batch的数据(注意不能设置太多线程, 太多会导致显存爆掉+显存利用率不高, 看模型大小和batch大小设置在2~8最佳)

查不多。 第一种是cpu层面对前后处理进行并行加速, gpu层面交给引擎进行batch加速 ; 第二种是 前后处理+引擎推理整个推理逻辑进行并行

有些op目前不支持转换到trt,会退回到走paddle原生算子。这个需要提供下模型具体分析,才能确定是否能支持全部进入trt。 顺便问下: 目前trt int8的性能不满足需求? 在什么GPU卡上,需要提升到多少才能满足需求?你们的业务场景是?

方便提供下模型和简单运行的demo吗? 能不能把op都放入trt子图需要具体针对op看下才能给你答复。 你说的纯计算时间是统计了整个 predictor.run(copyfromcpu、copytocpu没统计) 还是说通过profile把各个op的计算时间加起来?

1. 你使用的paddle inference库是多少版本? 2. 我看你有使用过debug模式(`config.switch_ir_debug()`), 能用visualdl或netron看看经过所有pass之后的图吗(即“_opt_cache”目录里数字最大的那个 xx_xxx.pdmodel) 3. 可以参考这个 [文档](https://github.com/PaddlePaddle/Paddle-Inference-Demo/blob/master/docs-official/guides/performance_tuning/performance_analysis_profiler.md) ,用 NVIDIA Nsight Systems 可视化图确认下 : GpuMemcpyAsync:GPU->CPU 主要由哪些算子导致的 ,上面的profile不能确定。 如果在工具使用上有一些问题,方便的话可以加我qq或微信咨询

不用看 .dot, 可视化看.pdmodel。 这个是经过pass之后保存的模型图