MiaoMiao Li
MiaoMiao Li
最近的更新好像比较大,好像更新了流式输出相关内容,但看了下代码,感觉不太合适,已经指定stream为False了,但依旧返回的是生成器(generator),这不合理吧。 注意到cosyvoice/cli/cosyvoice.py文件下那几个推理函数都没有对stream作判断,难道是代码合并叉劈了?🤔 同时,因为这个改动,我发现webui.py里语速调节的部分也已经被去除。毕竟推理结果是个生成器,原来用的speed_change函数也不能用了呀😄 改起来倒是不难,就是不太能理解 output = cosyvoice.inference_zero_shot(target_words, ref_words, prompt_speech_16k) tts_speeches = [] for i in output: tts_speeches.append(i['tts_speech']) # 调整音频速度 audio_data, sample_rate = speed_change(torch.concat(tts_speeches, dim=1), 22050, str(target_speed))
Added one-click startup AutoDL to facilitate users to quickly get started and verify the use 增加一键启动的AutoDL,方便用户快速上手验证使用 ### What problem does this PR solve? _Briefly describe what this PR aims to...
修复色差问题
修复遮罩附近的色差问题
生产中发现一些模型可能会因为素材或者参考音频的原因,时不时推理出大段的无意义音频,排查发现是在AR的decode阶段有点问题,进行了优化,降低了一直推出同一个token的情况。对于一些恶意token(蹩脚的叫法),上一个修改依旧不能修复,会出现a,a,a,a,b,b,a,a,a,a这种情况,直接干掉。测试下来也没什么不妥,质量也没下降,稳定性肉眼可见的提升。人机交互产品出现那种大段的噪音真的不能接受,不是说抽卡就行的。