CosyVoice icon indicating copy to clipboard operation
CosyVoice copied to clipboard

为什么开源flow模型推理 prompt部分对应的输出结果,是带噪的?

Open JohnHerry opened this issue 2 months ago • 2 comments

flow的 zero-shot推理流程, 是从 prompt + target speech token序列恢复成梅尔谱,然后截取 target speech token对应的梅尔谱部分。 理论上前边promptt对应的生成梅尔谱部分应该也是好的。但是开源的CosyVoicd2 的flow2权重,其合成的截掉部分,也就是prompt对应的梅尔谱部分是带噪的。这是怎么回事呢? 我们尝试自己训练的flow模型就不会出现这种情况。

JohnHerry avatar Nov 05 '25 03:11 JohnHerry

你好,有追溯到原因吗,是训练策略不一致吗

blackbird-fish avatar Nov 12 '25 03:11 blackbird-fish

This issue is stale because it has been open for 30 days with no activity.

github-actions[bot] avatar Dec 13 '25 02:12 github-actions[bot]