CosyVoice CosyVoice3的flow模型，有人自己实现吗？

求帮助，我们按照CosyVoice3论文所述的 flow模型，使用了DiT架构代替UNet，去掉了token encoder。模型训练出来可以用，但是模型量化转 tensorRT fp16 后，推理总是失败的，模型推理过程会出现数值溢出。哪位大神有什么指导思路吗？用polygraphy去跟的时候，量化模型的推理误差是逐渐递增的，并不存在一个误差突变节点。

Nov 20 '25 08:11 JohnHerry

这个试试特征处理一下？mel_norm = (mel+5)/5 -> (-2,2)这样可能会有用？

Nov 24 '25 09:11 HaiFengZeng

谢谢，好像还真是落在近似范围的值。请问理论上梅尔谱元素最大值，最小值应该分别是多大啊？虽然观察着 -10 到2范围的值比较多，但是不确定。另外你推荐的归一化方法，是这样全元素直接搞好，还是分频带分别统计最大最小值更好？

Nov 25 '25 07:11 JohnHerry

求帮助，我们按照CosyVoice3论文所述的 flow模型，使用了DiT架构代替UNet，去掉了token encoder。模型训练出来可以用，但是模型量化转 tensorRT fp16 后，推理总是失败的，模型推理过程会出现数值溢出。哪位大神有什么指导思路吗？用polygraphy去跟的时候，量化模型的推理误差是逐渐递增的，并不存在一个误差突变节点。

fp32推理正常吗，U-Net换成DiT后，效果提升有多少

Nov 25 '25 13:11 Shengqiang-Li

fp32推理正常。音色相似度提升 0.02-0.05吧。 flow2的音色相似度也就0.71左右； flow3可以到0.75，0.76；我们用的纯16K，不是开源的 24K采样率的；所以指标比开源的会低一些，提升起来也困难。

Nov 26 '25 01:11 JohnHerry

这个试试特征处理一下？mel_norm = (mel+5)/5 -> (-2,2)这样可能会有用？好了一点点，用 bf16 精度量化的时候，不会溢出的了。但是合成的音质令人发指，根本没法用。还是得去趟其他办法。

Dec 04 '25 03:12 JohnHerry