psk-github

Results 3 comments of psk-github

功能的实现原理是,在原本框架中对实时流进行vad时的结果进行时间转换,得到毫秒级别的句子相对于实时音频流开始时间的开始和结束时间,通过本身就支持的vad模型替换主模型的时间戳返回,且之后不再受主模型是否支持时间戳功能的限制。 目前FunASR支持句子级别时间戳是指当模型本身支持句子级别时间戳时才会有相关返回,但是当模型本身并不支持时,就没有相关内容。例如,我现在使用的iic/SenseVoiceSmall-onnx主模型进行实时识别时,原本返回并没有时间戳,我自己修改完代码后,websocket返回时就带上了vad模型对实时音频流vad的时间内容。 修改后的websocket返回结果如下图所示: ![image](https://github.com/user-attachments/assets/8f37fb68-3699-41f7-8c3d-3be5311158dd)

方便问一下,SenseVoice的热词模型是否有计划,我们这边按照文档自训练了一下SenseVoiceSmall,发现效果很差,希望能有官方的热词版支持

> > > ``` > > > 功能的实现原理是,在原本框架中对实时流进行vad时的结果进行时间转换,得到毫秒级别的句子相对于实时音频流开始时间的开始和结束时间,通过本身就支持的vad模型替换主模型的时间戳返回,且之后不再受主模型是否支持时间戳功能的限制。 > > > > > > 目前FunASR支持句子级别时间戳是指当模型本身支持句子级别时间戳时才会有相关返回,但是当模型本身并不支持时,就没有相关内容。例如,我现在使用的iic/SenseVoiceSmall-onnx主模型进行实时识别时,原本返回并没有时间戳,我自己修改完代码后,websocket返回时就带上了vad模型对实时音频流vad的时间内容。 > > > ``` > > > > > > > > > > >...