[BUG]无法正确读取的特定文本 & 尾音无法读完
Describe the bug 1.在WEB界面测试中,无论是使用参卡音频还是随即说话人,都无法正确读取文本“123456789ABCDEFG”。 2.在WEB界面测试中,生成的尾音,最后一个字无法读完.往往是在一半就停止了
To Reproduce
python tools/webui.py \
--llama-checkpoint-path "checkpoints/text2semantic-sft-medium-v1.1-4k.pth" \
--llama-config-name dual_ar_2_codebook_medium \
--decoder-config-name vits_decoder_finetune \
--decoder-checkpoint-path "checkpoints/vits_decoder_v1.1.ckpt"
1.在WEB界面中,将文本“123456789ABCDEFG”输入, 播放或听取生成的语音输出。 2.在WEB界面中,将文本 “由 Fish Audio 研发的基于 VQ-GAN 和 Llama 的多语种语音合成.”
Expected behavior 1.准确发出特定文本 2.最后一个音读完
Screenshots / log 无 Additional context 问题1语音: 123456789ABCDEFG
https://github.com/fishaudio/fish-speech/assets/16934884/5e3e407c-09f4-465b-bd7d-50d038af12c3
问题2语音:由 Fish Audio 研发的基于 VQ-GAN 和 Llama 的多语种语音合成.
https://github.com/fishaudio/fish-speech/assets/16934884/6f198fb7-9e7b-4098-bcac-e31d4fce4e8f
这种是不是你切的数据里,尾音就被切掉了?
目前我也有这个问题,大部分语句生成正常,少部分抽卡的时候,语句在最后的尾音仓促结束,像被吞掉的感觉。
我也遇到了,用的是VQ-GAN生成的模型进行推理,开始十几次使用正常,生成到一定次数后,就会出现语句在最后一个字仓促结束,只说一半。
我也遇到了,用的是VQ-GAN生成的模型进行推理,开始十几次使用正常,生成到一定次数后,就会出现语句在最后一个字仓促结束,只说一半。
应该是在迭代提示长度较短,在64以内的时候最容易出现
这种是不是你切的数据里,尾音就被切掉了?
遇到同样的问题,请问你是如何切的能保证尾音不被切掉?我用的 gpt sovits 提供的切割代码。
可以试一下slicer-gui切割语音
目前我也有这个问题,大部分语句生成正常,少部分抽卡的时候,语句在最后的尾音仓促结束,像被吞掉的感觉。
都是这样,最后一个字偶尔会被吞掉,可以多训练lora来merge
codes_0.zip 解压后执行 python tools/vqgan/inference.py -i "codes_0.npy" --checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" 我的文本是:她的渴望让静水泛起涟漪。若代价只是孤独,那就让这份愿望肆意流淌。
https://github.com/fishaudio/fish-speech/assets/16934884/44341cb4-2f54-4c6f-b674-67290704d8e9
结果:出现了吞字和读不完的现象。更新了1.2版本之后,这个问题好像更严重了。是我的问题吗?
codes_0.zip 解压后执行 python tools/vqgan/inference.py -i "codes_0.npy" --checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" 我的文本是:她的渴望让静水泛起涟漪。若代价只是孤独,那就让这份愿望肆意流淌。
FAKE.MP4 结果:出现了吞字和读不完的现象。更新了1.2版本之后,这个问题好像更严重了。是我的问题吗?
问题还挺明显,我们之前也碰到类似问题,就没有采用这套方案了。
的确,使用官网demo同样的音频文字就可以读的很好,我自己跑的就吃尾音,只有有时候抽卡会好点的结果
官网上的是sft版本,非微调lora,的确存在一定差距,这种情况只能多试试merge lora。