BELLE
BELLE copied to clipboard
关于Belle-whisper-large-v2-zh模型分句的问题,请问这个模型是用有时间戳的分句数据训练的吗?
看到数据处理函数aishell.py中似乎并没有对一个长句子进行短句时间戳分段,而是从零开始到音频结束作为一整个时间戳
所以这个Belle-whisper-large-v2-zh模型的分句效果不太好是因为数据没进行分句的原因吗
数据处理 默认训练数据均为短句(大多10秒内),所以没有做细致的切分。 识别过程中,分句主要依赖vad模块。 由于微调过程没有进行加时间戳的微调,可能会影响识别结果中时间戳的准确率。如果对时间戳准确率有要求,可以微调中加入时间戳微调。
数据处理 默认训练数据均为短句(大多10秒内),所以没有做细致的切分。 识别过程中,分句主要依赖vad模块。 由于微调过程没有进行加时间戳的微调,可能会影响识别结果中时间戳的准确率。如果对时间戳准确率有要求,可以微调中加入时间戳微调。
您好,感谢您优秀的工作,想问下测试时如何得到每句话的具体时间戳呢?谢谢!
时间戳可以参考 faster whisper https://github.com/SYSTRAN/faster-whisper?tab=readme-ov-file#word-level-timestamps