基于paraformer & whisper 的离线转写网页,时间戳断句试听,生成字幕等
www.funsound.cn
合成字幕效果如下:
Good!
大佬,请教一下翻译用到什么模型。
facebook 有一些开源的多语言翻译模型 但是逐句效果不太好,后面用的还是gpt
Clear @.***
------------------ 原始邮件 ------------------ 发件人: "modelscope/FunASR" @.>; 发送时间: 2024年11月4日(星期一) 上午10:42 @.>; @.@.>; 主题: Re: [modelscope/FunASR] 基于paraformer & whisper 的离线转写网页,时间戳断句试听,生成字幕等 (Issue #2059)
大佬,请教一下翻译用到什么模型。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
开源么兄弟
开源么兄弟
私聊
开源么兄弟
私聊
我使用官方的案例 和 FunClip 的案例,从视频中提取的音频文件识别出来是乱的,但是用 FunSound 都能正确识别,麻烦请教一下FunSound 里面做了什么改动和优化么?
开源么兄弟
私聊
我使用官方的案例 和 FunClip 的案例,从视频中提取的音频文件识别出来是乱的,但是用 FunSound 都能正确识别,麻烦请教一下FunSound 里面做了什么改动和优化么?
你尝试去掉vad再试试