WINLAIC

Results 2 issues of WINLAIC

预处理加了多进程加速,并简化了代码。

新一代kaldi开发者们,您好。 我在使用`sherpa/sherpa/bin/offline_ctc_asr.py:68`提供的wav2vec2解码脚本时发现,解码结果中所有连续出现的英文字母都被压缩成了一个字母,比如在解码LibriSpeech中`dev-other/116/288045/116-288045-0016.flac`这条语音时, 所用wav2vec2.0模型来自样例 [https://huggingface.co/csukuangfj/wav2vec2.0-torchaudio/wav2vec2_asr_large_960h.pt]() 所用脚本为: ```shell python /data/code/sherpa/sherpa/bin/offline_ctc_asr.py \ --nn-model pretrained_models/csukuangfj/wav2vec2.0-torchaudio/wav2vec2_asr_large_960h.pt \ --tokens pretrained_models/csukuangfj/wav2vec2.0-torchaudio/tokens.txt \ --use-gpu true \ ${librispeech_root}/dev-other/116/288045/116-288045-0016.flac ``` 这条语音的真实标注为: ``` THEN TAKING HEART I TOLD MY GUIDE HOW...