蓝白bw

Results 2 issues of 蓝白bw

warning: This code should not be merged directly. 一份简单的尝试代码。当前底模的能力很强,我认为可以不通过训练整个GPT模型或者s2G模型来拟合新的声音特征,而是训练一个例如[64,1024]的说话人特征tensor来注入说话人风格。同时这个tensor应当可以替代prompt作为GPT的生成指向。 受制于设备的贫瘠,我简单尝试了加性耦合一个[embedding_dim]的特征向量到GPT的y_emb处(原谅我没能完全看懂代码变量意义,对tts的了解不是很多),然后单独训练speaker_proj和speaker_feat。训练100epoch后进行推理,发现对推理有一定改善。 我个人觉得这个思路可能有一定价值,所以做了个pr作为参考,看能不能做出改善。 PS:这个思路和so-vits比较像,但是我训练不了大模型,只能目测一下"拼接到prompt之前"可能会作为音色转换的思路。 这个代码属于实验代码,不应当被merge

https://ar5iv.labs.arxiv.org/html/2405.04517 Conversion to HTML had a Fatal error and exited abruptly. This document may be truncated or damaged. - OS: macOS - Browser: edge

bug
medium
fidelity