CosyVoice 如何使用inference_vc完美的复刻音频的情绪和语气？

求助大佬，如何实现A音频的情绪和语气+B音频的音色，然后生成C音频，C音频就是A音频和B音频的集合。这种方式可以更指定的控制语音的合成，比如找某人日常说话的声音，然后找个某专业配音的多语态音频，这样是不是可以直接复刻专业配音的所有语态了？我了解到项目中已经存在一个inference_vc函数，但是我实际使用的时候发现效果并没有达到预期效果，实测愤怒的情感没有完美的复刻出来，情绪没有达到最高点。有人已经完美实现这个场景了吗？交流一下。

def inference_vc(self, source_speech_16k, prompt_speech_16k, stream=False, speed=1.0): model_input = self.frontend.frontend_vc(source_speech_16k, prompt_speech_16k, self.sample_rate) start_time = time.time() for model_output in self.model.tts(**model_input, stream=stream, speed=speed): speech_len = model_output['tts_speech'].shape[1] / self.sample_rate logging.info('yield speech len {}, rtf {}'.format(speech_len, (time.time() - start_time) / speech_len)) yield model_output start_time = time.time()

情绪克隆实测数据.zip

Apr 28 '25 16:04 wei-rh

vc好像只能用300M的跑，0.5b的会出错

Apr 29 '25 03:04 foxmale007

能不能用A音频的情绪和语气+B音频的音色，然后生成一段和A音频不一样文字内容的C音频，例如，我用中文的说话情绪和川普的音色，生成一段川普从没说过的英文，，，一定会很有趣。XD

May 13 '25 07:05 shellddd