DefTruth

Results 256 comments of DefTruth

> > #15 看这个讨论,可能是由于cpu数据传输的原因 > > 您好,大佬想请教一下,作者原文RVM 在4k视频可以达到76fps,我想在3090上达到最快速度推理,基于咱们这个库如何改进呢,这里推理包括数据加载方式、数据预处理以及模型推理得到输出值alpha、fgr,不包含后续合成 在服务端的话,感觉不是很有必要用c++,可以看我fork的分支,里面有个python的推理: * https://github.com/DefTruth/RobustVideoMatting/blob/onnx/inference_onnx.py 需要用到onnxruntime的gpu版本,并且做好iobinding,onnxruntime-gpu python服务端的配置可以看我写的文章: * [👋解决: ONNXRuntime(Python) GPU 部署配置记录](https://zhuanlan.zhihu.com/p/457484536) 如果你想用c++版本,我具体也没试过做这些优化,业余精力有限,主要还是在研究算法本身。但是你可以从2点入手: * 1. 优化rxi的数据传递,如果是onnxruntime,可以尝试做c++版本的iobinding, 可以看官方文档[tune-performance](https://onnxruntime.ai/docs/performance/tune-performance.html) 进行性能调优 * 2. 如果是用MNN,那么可以尝试把rxi设置成device的张量,避免device->host->device的拷贝(我没有尝试过)

> > > > > > > > > > > > > > > > > 大佬,目的是使用C++推理,1.使用TensorRT会不会增加推理速度呢,2.我看你回复其他人问题,有提到rxi是在cpu操作的, 3.视频加载使用什么能提速?opencv GPU版本还是ffmpeg gpu?,预处理是否必须在cpu下才能操作。 > > > > 我认为应该进行GPU编解码才能做到真正的实时 > > > >...

不能直接生成。windows下需要重新编译lite.ai.toolkit,另外lite.ai.toolkit只是一个C++库

nput_node_names 和 output_node_names 没有用到,只是提示。rxi_tensor是必须的,是rvm模型的上下文隐向量,具体原理需要看rvm的论文来理解。性能方面,可能是io问题?不太清楚了....

可能是cpu和gpu的io花的时间较长,rxi_tensor这几个变量我是定义在cpu的(host),目前没有试过定义在gpu,你可以看看怎么改在gpu。

最近工作比较忙,可能暂时没时间添加进来。您可以参考一下yolov5,yolov6的实现进行添加

或者关注 [⚡️PaddlePaddle/FastDeploy](https://github.com/PaddlePaddle/FastDeploy) , 我们最近会release一个新版本,里面提供了yolov7的推理支持

onnxruntime有预编译库的,可以直接下载,https://github.com/microsoft/onnxruntime/releases/tag/v1.12.1