fish-speech [BUG]无法正确读取的特定文本 & 尾音无法读完

Describe the bug 1.在WEB界面测试中,无论是使用参卡音频还是随即说话人,都无法正确读取文本“123456789ABCDEFG”。 2.在WEB界面测试中,生成的尾音,最后一个字无法读完.往往是在一半就停止了

To Reproduce

python tools/webui.py \
    --llama-checkpoint-path "checkpoints/text2semantic-sft-medium-v1.1-4k.pth" \
    --llama-config-name dual_ar_2_codebook_medium \
    --decoder-config-name vits_decoder_finetune \
    --decoder-checkpoint-path "checkpoints/vits_decoder_v1.1.ckpt"

1.在WEB界面中,将文本“123456789ABCDEFG”输入, 播放或听取生成的语音输出。 2.在WEB界面中,将文本 “由 Fish Audio 研发的基于 VQ-GAN 和 Llama 的多语种语音合成.”

Expected behavior 1.准确发出特定文本 2.最后一个音读完

Screenshots / log 无 Additional context 问题1语音: 123456789ABCDEFG

https://github.com/fishaudio/fish-speech/assets/16934884/5e3e407c-09f4-465b-bd7d-50d038af12c3

问题2语音:由 Fish Audio 研发的基于 VQ-GAN 和 Llama 的多语种语音合成.

https://github.com/fishaudio/fish-speech/assets/16934884/6f198fb7-9e7b-4098-bcac-e31d4fce4e8f

May 21 '24 02:05 laishujie

这种是不是你切的数据里，尾音就被切掉了？

May 21 '24 03:05 ScottishFold007

目前我也有这个问题，大部分语句生成正常，少部分抽卡的时候，语句在最后的尾音仓促结束，像被吞掉的感觉。

May 22 '24 05:05 funying

我也遇到了，用的是VQ-GAN生成的模型进行推理，开始十几次使用正常，生成到一定次数后，就会出现语句在最后一个字仓促结束，只说一半。

May 23 '24 15:05 Xiaodu233

我也遇到了，用的是VQ-GAN生成的模型进行推理，开始十几次使用正常，生成到一定次数后，就会出现语句在最后一个字仓促结束，只说一半。

应该是在迭代提示长度较短，在64以内的时候最容易出现

May 23 '24 15:05 Xiaodu233

这种是不是你切的数据里，尾音就被切掉了？

遇到同样的问题，请问你是如何切的能保证尾音不被切掉？我用的 gpt sovits 提供的切割代码。

May 27 '24 12:05 aixiaodewugege

可以试一下slicer-gui切割语音

Jun 12 '24 03:06 zsh123abc

目前我也有这个问题，大部分语句生成正常，少部分抽卡的时候，语句在最后的尾音仓促结束，像被吞掉的感觉。

都是这样，最后一个字偶尔会被吞掉，可以多训练lora来merge

Jun 21 '24 02:06 hotdogarea

codes_0.zip 解压后执行 python tools/vqgan/inference.py -i "codes_0.npy" --checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" 我的文本是：她的渴望让静水泛起涟漪。若代价只是孤独，那就让这份愿望肆意流淌。

https://github.com/fishaudio/fish-speech/assets/16934884/44341cb4-2f54-4c6f-b674-67290704d8e9

结果：出现了吞字和读不完的现象。更新了1.2版本之后，这个问题好像更严重了。是我的问题吗？

Jul 05 '24 03:07 laishujie

codes_0.zip 解压后执行 python tools/vqgan/inference.py -i "codes_0.npy" --checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" 我的文本是：她的渴望让静水泛起涟漪。若代价只是孤独，那就让这份愿望肆意流淌。

FAKE.MP4 结果：出现了吞字和读不完的现象。更新了1.2版本之后，这个问题好像更严重了。是我的问题吗？

问题还挺明显，我们之前也碰到类似问题，就没有采用这套方案了。

Jul 05 '24 07:07 tianlinzx

的确，使用官网demo同样的音频文字就可以读的很好，我自己跑的就吃尾音，只有有时候抽卡会好点的结果

Jul 05 '24 08:07 ondineyuga

官网上的是sft版本，非微调lora，的确存在一定差距，这种情况只能多试试merge lora。

Jul 05 '24 12:07 AnyaCoder