Itsuka-Xx
Itsuka-Xx
在linux部署了docker,通过WebUI 推理时,同样一份音频,我输入8个字左右的时候,生成结果较为随机,会混入一些不属于我输入的文字内容,或者读完文字后出现较长的空白内容。但是当我输入较多字数的时候这个问题就没有出现了,请问这是正常的吗? 目前的步骤是 1. 点击Reference Audio,然后勾选启用参考音频 2. 上传一份20秒的游戏角色的音频文件,并输入音频文件的文字内容
请问目前针对模型提升推理速度还有哪些比较好的手段吗,测试下来,感觉目前的流式还是完整生成之后传回。代码目前有实现边生成变传输的吗?感觉这样实时性更高一些。或者可以调整哪些参数提升一下推理速度。
Notice: In order to resolve issues more efficiently, please raise issue following the template. (注意:为了更加高效率解决您遇到的问题,请按照模板提问,补充细节) #### What is your question? 尝试通过微调的方式增加一种新的语言类型