VoxCPM icon indicating copy to clipboard operation
VoxCPM copied to clipboard

开头吞字现象

Open BestMt111 opened this issue 4 months ago • 6 comments

为什么总是会出现开头吞字现象,开头2个字总是读不对。

BestMt111 avatar Dec 09 '25 03:12 BestMt111

  • 我测试开头问题也比较多,伪影、爆音比较常见,这个和提示音频高度相关。
  • 中间经常遇到不自然的停顿,逗号之间的两句话停顿经常超过0.5秒。(这个是目前最大的问题,很多提示音频都会遇到,不是百分百,大概三四个逗号就会遇到一个不自然的停顿)
  • 其他不严重的小问题:偶尔的沙哑,开头第一个词略有不自然

除了通过更换提示音频,我也想问问还有什么解决方案吗?这些问题经常都是偶现的,毕竟用户上传的提示音频我们也控制不了,如果对提示音频的要求太高也太麻烦了。

maxin9966 avatar Dec 09 '25 04:12 maxin9966

你好,感谢反馈:)

模型的工作原理是根据参考文本+目标合成文本,对参考音频做音频内容续写,对于开头漏字和伪音问题,建议从如下方式来解决:

  1. 对于开头吞字现象,可以检查prompt text是否和上传参考音频完全一致,如有转录识别错漏,建议修正为正确文本。
  2. 对于上传或录制的参考音频,建议检查是否完整,如存在音频结尾戛然而止情况,模型可能会尝试继续补充完之前的尾音,导致合成音频中出现开头杂音。针对这一点,建议使用完整句的参考音频或尝试在参考音频末尾补一小段静音来缓解。

对于一些难以处理的参考音频样本,非常希望您能提供对应音频文件和合成文本,便于我们排查分析,谢谢理解。

Labmem-Zhouyx avatar Dec 09 '25 06:12 Labmem-Zhouyx

@Labmem-Zhouyx 感谢回复!

目前其他问题都可以通过一定的算法或者优化提示音频缓解。

但是输出的音频经常在逗号处有长时间的间隔,非常不自然,这个我应该如何处理?这个是目前非常影响体验的部分,我不知道该如何处理,检测停顿+硬切的话我担心也不自然,我想问下停顿的原因,看看能不能修改源码。

maxin9966 avatar Dec 09 '25 06:12 maxin9966

@Labmem-Zhouyx 感谢回复!

目前其他问题都可以通过一定的算法或者优化提示音频缓解。

但是输出的音频经常在逗号处有长时间的间隔,非常不自然,这个我应该如何处理?这个是目前非常影响体验的部分,我不知道该如何处理,检测停顿+硬切的话我担心也不自然,我想问下停顿的原因,看看能不能修改源码。

我也遇到了类似的问题。一个是开头有时会有较长时间的“准静音”,另一个是句子中的停顿不够自然,大多数时候过短,偶尔也会过长。

steven8274 avatar Dec 09 '25 07:12 steven8274

@maxin9966 十分感谢你反馈的这个现象,不过抱歉目前暂时没有推理代码上的工程优化方法。因为标点符号等韵律停顿现象是训练时从大规模<文本-音频>数据中自发学习的,可能源于训练数据标注中对逗号停顿定义的偏差,模型学到了逗号token和过长静音段的对应关系。短期您可通过检测+切除一部分的方式直接处理,后续我们会在下一版发布模型中高优解决该问题,谢谢反馈!

Labmem-Zhouyx avatar Dec 09 '25 07:12 Labmem-Zhouyx

我发现对参考音频的质量要求是非常高的。 噪音和背景音越小越好。 甚至口水因都会影响。

这其实也说明克隆的信息是很完整的,口水因和喷麦等细节都会被克隆出来。

qt06 avatar Dec 09 '25 08:12 qt06