CosyVoice icon indicating copy to clipboard operation
CosyVoice copied to clipboard

CosyVoice3的flow模型,有人自己实现吗?

Open JohnHerry opened this issue 2 months ago • 4 comments

求帮助,我们按照CosyVoice3论文所述的 flow模型,使用了DiT架构代替UNet,去掉了token encoder。模型训练出来可以用,但是模型量化转 tensorRT fp16 后,推理总是失败的,模型推理过程会出现 数值溢出。哪位大神有什么指导思路吗? 用polygraphy去跟的时候,量化模型的推理误差是逐渐递增的,并不存在一个误差突变节点。

JohnHerry avatar Nov 20 '25 08:11 JohnHerry

这个试试特征处理一下?mel_norm = (mel+5)/5 -> (-2,2)这样可能会有用?

HaiFengZeng avatar Nov 24 '25 09:11 HaiFengZeng

谢谢,好像还真是落在近似范围的值。请问理论上梅尔谱元素最大值,最小值应该分别是多大啊?虽然观察着 -10 到2范围的值比较多,但是不确定。 另外你推荐的归一化方法, 是这样全元素直接搞好,还是分频带分别统计 最大最小值更好?

JohnHerry avatar Nov 25 '25 07:11 JohnHerry

求帮助,我们按照CosyVoice3论文所述的 flow模型,使用了DiT架构代替UNet,去掉了token encoder。模型训练出来可以用,但是模型量化转 tensorRT fp16 后,推理总是失败的,模型推理过程会出现 数值溢出。哪位大神有什么指导思路吗? 用polygraphy去跟的时候,量化模型的推理误差是逐渐递增的,并不存在一个误差突变节点。

fp32推理正常吗,U-Net换成DiT后,效果提升有多少

Shengqiang-Li avatar Nov 25 '25 13:11 Shengqiang-Li

fp32推理正常。 音色相似度提升 0.02-0.05吧。 flow2的音色相似度也就0.71左右; flow3可以到0.75,0.76; 我们用的纯16K,不是开源的 24K采样率的;所以指标比开源的会低一些,提升起来也困难。

JohnHerry avatar Nov 26 '25 01:11 JohnHerry

这个试试特征处理一下?mel_norm = (mel+5)/5 -> (-2,2)这样可能会有用? 好了一点点,用 bf16 精度量化的时候,不会溢出的了。但是合成的音质令人发指,根本没法用。 还是得去趟其他办法。

JohnHerry avatar Dec 04 '25 03:12 JohnHerry