CosyVoice
CosyVoice copied to clipboard
为什么开源flow模型推理 prompt部分对应的输出结果,是带噪的?
flow的 zero-shot推理流程, 是从 prompt + target speech token序列恢复成梅尔谱,然后截取 target speech token对应的梅尔谱部分。 理论上前边promptt对应的生成梅尔谱部分应该也是好的。但是开源的CosyVoicd2 的flow2权重,其合成的截掉部分,也就是prompt对应的梅尔谱部分是带噪的。这是怎么回事呢? 我们尝试自己训练的flow模型就不会出现这种情况。
你好,有追溯到原因吗,是训练策略不一致吗
This issue is stale because it has been open for 30 days with no activity.