导出的onnx 模型比正常的模型推理慢

Open DuBaiSheng opened this issue 1 year ago • 2 comments

使用export 导出的onnx格式的模型，并使用SenseVoiceSmall加载，批次推理的时长，比原本使用AutoModel加载的原始模型要慢7倍。是什么原因呢，都是使用GPU加载推理。

Sep 25 '24 06:09 DuBaiSheng

Sep 25 '24 15:09 LauraGPT

我也有这个问题，每次加载新的语音，推理时间都很长，cpu的话没事

Oct 10 '24 02:10 Nicksooooo

导出的onnx 模型比 正常的模型推理慢