PL comments

Results 3 comments of

PL

How to decode Lora finetune model

Package Version：0.7.6 Model：Lora finetuned speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch model Command：python infer.py Details：when inference lora finetuned speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch model Error log： RuntimeError：AutomaticSpeechRecognitionPipeline：Error（s）in loading state_dict for Paraformer： unexpected key(s) in state_dict: "encoder.encoders0.0.self_attn.linear_q_k_v.lora_A"

转写长音频（20分钟以上）的时候，会出现大量的叠字

不用到20分钟，1分钟（vad强切默认值是60s）就能出现吧。我看是ASR模型的问题吧，ASR推理vad切不断的语音这种现象比较明显。至于调到多少可能跟训练数据的长度有关系吧，我觉得尝试调到20s看看有没有改善。

有大佬能帮我解释一下为什么同样的音频识别多次每次的结果都有差异吗

请问你说的是python的推理还是C++ runtime？我遇到过funasr1.0之前的python推理出现你讲的问题，当时发现似乎跟wav.scp中的音频顺序有关系，不知道为什么。