Xiao Mao

Results 2 issues of Xiao Mao

开发者们好,我想介绍一下我在我的fork(https://github.com/matthew99a/Retrieval-based-Voice-Conversion-WebUI)上做的一个实验。 我用自己很喜欢的一个偏美声歌手训练的模型,最开始听起来不是很像。然后我发现了一个现象:这个歌声在发同一个元音的时候,高音的发音方式和低音的发音方式会不同(比如高音的ah(啊)听感在ah和oo(乌)之间),而HuBERT模型是不能准确的把它们识别成同一种特征的。我因此意识到模型不准确的原因可能是因为模型里训练的特征是不考虑音高的。这样的实现方式在匹配的时候,高音的特征可能与训练集里的低音特征匹配。由于美声歌手往往不会用这个特征唱高音,因此生成出来的高音也会很奇怪。 在我的实验中,我把**特征加了一维(v2版本的768维变769维)表示音高**,从而使得匹配的时候能够优先匹配训练集里音高接近的特征。使用两个小时的训练集重新训练特征之后,在我的实验中效果好了一大截,当然代价是咬字略微差了一些。当然我也清楚这样做的坏处是训练集要求太高,因为如果训练集太小,可以用来匹配的音高接近的特征就很少,对咬字的牺牲就会很大,并且也许这种实现只有对美声歌手等特殊的唱法非常有效果(不是很清楚一般的流行唱法的高音和低音HuBERT特征差距多大)。 希望这个实验报告能起到一些抛砖引玉的作用。

good first issue

When there are more than one segments in vc.pipeline, every new segment makes subsequent audio output out of place by one frame (i.e. length of self.window = 0.01s). The final...