CosyVoice icon indicating copy to clipboard operation
CosyVoice copied to clipboard

如何使用inference_vc完美的复刻音频的情绪和语气?

Open wei-rh opened this issue 9 months ago • 2 comments

求助大佬,如何实现A音频的情绪和语气+B音频的音色,然后生成C音频,C音频就是A音频和B音频的集合。 这种方式可以更指定的控制语音的合成,比如找某人日常说话的声音,然后找个某专业配音的多语态音频,这样是不是可以直接复刻专业配音的所有语态了? 我了解到项目中已经存在一个inference_vc函数,但是我实际使用的时候发现效果并没有达到预期效果,实测愤怒的情感没有完美的复刻出来,情绪没有达到最高点。有人已经完美实现这个场景了吗? 交流一下。

def inference_vc(self, source_speech_16k, prompt_speech_16k, stream=False, speed=1.0): model_input = self.frontend.frontend_vc(source_speech_16k, prompt_speech_16k, self.sample_rate) start_time = time.time() for model_output in self.model.tts(**model_input, stream=stream, speed=speed): speech_len = model_output['tts_speech'].shape[1] / self.sample_rate logging.info('yield speech len {}, rtf {}'.format(speech_len, (time.time() - start_time) / speech_len)) yield model_output start_time = time.time()

情绪克隆实测数据.zip

wei-rh avatar Apr 28 '25 16:04 wei-rh

vc好像只能用300M的跑,0.5b的会出错

foxmale007 avatar Apr 29 '25 03:04 foxmale007

能不能用A音频的情绪和语气+B音频的音色,然后生成一段和A音频不一样文字内容的C音频,例如,我用中文的说话情绪和川普的音色,生成一段川普从没说过的英文,,,一定会很有趣。XD

shellddd avatar May 13 '25 07:05 shellddd