Shiyu Zhang issues

Results 7 issues of


                                            Shiyu Zhang

批量处理音频事后，我每次执行asr的时候，都会执行load sv model params 这个操作

批量处理音频的时候，每个音频都会都会执行load sv model params 这个操作，模型不是已经加载到显存了吗？这个操作会消耗大量的时间，如何通过设置，不再执行这个操作呢？

关于验证码的安全问题

作者在LoginFilter中完成了对验证码的判断。在判断后没有及时的设置验证码的失效，会带来浅在的安全问题。具体表现为：只需要请求一次验证码的url，然后用模拟发送http的程序去不断的穷举用户名和密码，验证码不会发生变化。

[BUG]4090显卡下面推理报错

在4090显卡下面使用webui进行推理会报错，无法推理，但是使用API表现正常。

bug

关于模型量化和fp16运行的问题

我使用sglang进行推理的时候，使用bf16没有问题，但是如果使用fp16就会报错。而且使用gptq或者awp量化也会报错，报错和使用fp16一样，请问有什么技巧吗？你们后期会不会进一步量化模型呢？

sglang

这个模型真是太棒了，感谢你们的工作。特别是我看到你们支持了sglang的实现。我查阅后知道sglang是有kvcache的缓存,但是目前主要支持Prefix Caching。我看到你们设计的input_token的格式是prompttextaudio_data的格式。个人认为很多时候参考声音audio_data占用了太多的tokens。我试着在推理的时候调整位置，发现生成的声音会发生错乱比如没有参考参考声音，或者把参考文本也进行了推理的情况。我的疑问是这样的： 1. 把audio_data调整在推理文本之前，是否有助于sglang的Prefix Caching，还是在sglang你们已经工程化了缓存参考音频。 2. 单纯的调整格式带来的问题，是后期解码的问题，还是模型习惯了之前的推理方式呢？ 3. 如果可以，你们有没有计划调整格式？

sglang

Shiyu Zhang

批量处理音频事后，我每次执行asr的时候，都会执行load sv model params 这个操作

关于验证码的安全问题

是否支持qwen1.5的滑动窗口的方式

[BUG]4090显卡下面推理报错

你们下一步优化和更新的方面回事那些方面呢？

关于模型量化和fp16运行的问题

关于sglang替换缓存的疑问和建议

Shiyu Zhang

批量处理音频事后，我每次执行asr的时候 ，都会执行load sv model params 这个操作

关于验证码的安全问题

是否支持qwen1.5的滑动窗口的方式

[BUG]4090显卡下面推理报错

你们下一步优化和更新的方面回事那些方面呢？

关于模型量化和fp16运行的问题

关于sglang替换缓存的疑问和建议

批量处理音频事后，我每次执行asr的时候，都会执行load sv model params 这个操作