will_wang
will_wang
## 0. 【问题】[paraformer]When is ONNX GPU export supported? ## 1. 版本**【wenet-v3.0.1】** ## 2. 尝试对 paraformer onnx gpu 进行转换 1. 基于下面的forward函数[wenet-main/examples/aishell/paraformer/wenet/paraformer/paraformer.py],我做了paraformer onnx gpu的转换尝试, ``` @torch.jit.export def forward_paraformer( self, speech: torch.Tensor, speech_lengths:...
# 1. environment - OS (e.g., Linux): Linux - FunASR Version (e.g., 1.0.0): 1.1.3 - ModelScope Version (e.g., 1.11.0): 1.11.0 - GPU (e.g., V100M32): A100 - ## 1.1 pt to...
我这边做了一些尝试,初步定位到paraformer onnx-gpu耗时过长的原因: ## 1. predictor中的cif部分 可将其替换成 https://github.com/George0828Zhang/torch_cif (CIF的一种快速并行的实现方式,**但没确认是否等价于paraformer内部的实现**) ## 2. onnxruntime 中 CUDA Settings的问题: 1. cudnn_conv_algo_search 的默认配置是 EXHAUSTIVE,这个选项的默认配置是比较耗时的,尤其影响卷积操作(通过打印的日志可以发现耗时的部分全部集中在 decoder 部分的Conv_kernel_time) `"dur" :52419,"ts" :4481356,"ph" : "X","name" :"/decoder/decoders.X/self_attn/fsmn_block/Conv_kernel_time"`  2. 因此需要将配置修改为下面的 providers...