为什么开源flow模型推理 prompt部分对应的输出结果，是带噪的？

Open JohnHerry opened this issue 2 months ago • 2 comments

flow的 zero-shot推理流程，是从 prompt + target speech token序列恢复成梅尔谱，然后截取 target speech token对应的梅尔谱部分。理论上前边promptt对应的生成梅尔谱部分应该也是好的。但是开源的CosyVoicd2 的flow2权重，其合成的截掉部分，也就是prompt对应的梅尔谱部分是带噪的。这是怎么回事呢？我们尝试自己训练的flow模型就不会出现这种情况。

Nov 05 '25 03:11 JohnHerry

你好，有追溯到原因吗，是训练策略不一致吗

Nov 12 '25 03:11 blackbird-fish

This issue is stale because it has been open for 30 days with no activity.

Dec 13 '25 02:12 github-actions[bot]