PL

Results 3 comments of PL

Package Version:0.7.6 Model:Lora finetuned speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch model Command:python infer.py Details:when inference lora finetuned speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch model Error log: RuntimeError:AutomaticSpeechRecognitionPipeline:Error(s)in loading state_dict for Paraformer: unexpected key(s) in state_dict: "encoder.encoders0.0.self_attn.linear_q_k_v.lora_A"

不用到20分钟,1分钟(vad强切默认值是60s)就能出现吧。我看是ASR模型的问题吧,ASR推理vad切不断的语音这种现象比较明显。至于调到多少可能跟训练数据的长度有关系吧,我觉得尝试调到20s看看有没有改善。

请问你说的是python的推理还是C++ runtime?我遇到过funasr1.0之前的python推理出现你讲的问题,当时发现似乎跟wav.scp中的音频顺序有关系,不知道为什么。