FireRedTeam
FireRedTeam
收到,谢谢
收到,谢谢
>  > > 1. 如图,对于长句子会输出不合理的音频, > 2. 似乎默认语速会很快,这是不是训练代码有bug,还是预料分布问题 可以提供一下你的prompt_wav和对应文本吗?
是因为我们文本处理前端没有加入切句,对于超长文本会超过模型处理极限,**我们会尽快添加文本切句功能**。测试了下切分后的效果,应该是没有问题。 [1.wav.zip](https://github.com/user-attachments/files/17321474/1.wav.zip)
分句问题已经在新版中解决。
正常了吗?
目前默认只支持wav。可以搜索一下在python里直接读取pcm文件,略微修改一下speech2text.py就行。或者搜一下ffmpeg把pcm转成wav。
@csukuangfj 请问开源了导出onnx的代码了么?
感谢反馈!我们会持续关注社区的需求
目前是写死的,训练时就是固定的