PressEsync
Results
1
comments of
PressEsync
> > CosyVoice2-0.5B 我试着输入一段固定文字和不同说话人的参考音频进行批量合成,为了实验合成语音对说话人认证系统的突破成功率。但是我发现合成的语音基本都在胡言乱语,没有按照给出的文字内容合成,而且语速和音频长度都不一致,偶尔有一条语音按照给定文字合成了,还只合成了一半。请问这是怎么回事呢? > > 代码贴下? 不胡言乱语了,我的音频参考文字错配了,已解决。 但是合成的音色不太对,女声被合成为男声,部分音频语速偏慢,哪里搞错了吗? 我传入的参考音频长度都为6s,原始采样率为16kHz。 代码: def df_cosyvoice(speaker_wav_path="./audio_clean", output_dir="./output_clean_cosyvoice", device="cuda", logger=None): config = GlobalConfig() TEXT_TO_SPEAK = config.text_cosy cosyvoice = CosyVoice2( './CosyVoice/pretrained_models/CosyVoice2-0.5B', load_jit=False, load_trt=False, load_vllm=False, fp16=False...