Shiyu Zhang

Results 7 issues of Shiyu Zhang

批量处理音频的时候,每个音频都会都会执行load sv model params 这个操作,模型不是已经加载到显存了吗?这个操作会消耗大量的时间,如何通过设置,不再执行这个操作呢?

作者在LoginFilter中完成了对验证码的判断。在判断后没有及时的设置验证码的失效,会带来浅在的安全问题。 具体表现为:只需要请求一次验证码的url,然后用模拟发送http的程序去不断的穷举用户名和密码,验证码不会发生变化。

是否支持qwen1.5的滑动窗口的方式?

在4090显卡下面使用webui进行推理会报错,无法推理,但是使用API表现正常。

bug

你们下一步优化和更新的方面回事那些方面呢?

我使用sglang进行推理的时候,使用bf16没有问题,但是如果使用fp16就会报错。而且使用gptq或者awp量化也会报错,报错和使用fp16一样,请问有什么技巧吗?你们后期会不会进一步量化模型呢?

sglang

这个模型真是太棒了,感谢你们的工作。特别是我看到你们支持了sglang的实现。我查阅后知道sglang是有kvcache的缓存,但是目前主要支持Prefix Caching。 我看到你们设计的input_token的格式是prompttextaudio_data的格式。个人认为很多时候参考声音audio_data占用了太多的tokens。我试着在推理的时候调整位置,发现生成的声音会发生错乱比如没有参考参考声音,或者把参考文本也进行了推理的情况。我的疑问是这样的: 1. 把audio_data调整在推理文本之前,是否有助于sglang的Prefix Caching,还是在sglang你们已经工程化了缓存参考音频。 2. 单纯的调整格式带来的问题,是后期解码的问题,还是模型习惯了之前的推理方式呢? 3. 如果可以,你们有没有计划调整格式?

sglang