派大星
派大星
> 我也有这个问题,很奇怪,我还以为pytorch的问题 我这两天尝试使用镜像的方式部署,发现镜像的方式一启动,推理就很快了,不知道是不是和操作系统有关系?
> 经过反复测试,显存为6G,int4模型情况下,是由于显存占满导致溢出至内存处理的问题,因为速率不一致,他们交换数据时显卡无法发挥最大性能,windows的解决方法是关闭独显模式,使集显运行windows资源管理器,这样可以腾出0.5G显存,刚好足够跑下一个int4模型,第一次对话加载模型后,即可秒答复 这个和我的情况看起来不一样,我是一块 40G 的 A100,都没有其他的程序占用
> 问题有解决吗?我也遇到类似问题。我用了两张T4显卡,但只是实际只用到了一张。推理速度很慢  改成镜像方式试试?我们换镜像启动后推理就挺快了
> 我是遇到部署推理一段时间后,推理速度只有原来的一半!不知道是啥问题 会不会是显存不够了? 我们后来都采用镜像方式,一开始速度就挺快了,然后也基本上速度没下来过。(但是我们推理服务基本上也就运行几天就手动去停止了,还没有长时间运行过)
话说 如果是非plus 账户,这个 OPENAI_API_BASE 参数在哪里看的?
那是否有异步状态跟踪呢?
When ANALYZING, there is no response for a long time. Has anyone encountered similar problems?
Thank you for your questions and answers. I still have some questions, as follows: 1. The checkpoints of the model are stored in the SSD by default. The current working...