蓝白bw issues

Results 2 issues of


                                            蓝白bw

尝试加入说话人的特征

warning: This code should not be merged directly. 一份简单的尝试代码。当前底模的能力很强，我认为可以不通过训练整个GPT模型或者s2G模型来拟合新的声音特征，而是训练一个例如[64,1024]的说话人特征tensor来注入说话人风格。同时这个tensor应当可以替代prompt作为GPT的生成指向。受制于设备的贫瘠，我简单尝试了加性耦合一个[embedding_dim]的特征向量到GPT的y_emb处（原谅我没能完全看懂代码变量意义，对tts的了解不是很多），然后单独训练speaker_proj和speaker_feat。训练100epoch后进行推理，发现对推理有一定改善。我个人觉得这个思路可能有一定价值，所以做了个pr作为参考，看能不能做出改善。 PS：这个思路和so-vits比较像，但是我训练不了大模型，只能目测一下"拼接到prompt之前"可能会作为音色转换的思路。这个代码属于实验代码，不应当被merge

Improve article 2405.04517 [HTML fatal error]

https://ar5iv.labs.arxiv.org/html/2405.04517 Conversion to HTML had a Fatal error and exited abruptly. This document may be truncated or damaged. - OS: macOS - Browser: edge

bug

medium

fidelity