heart18z
heart18z
32B-Chat-AWQ回复慢,vllm4部署,有什么解决办法吗
已经确认4.8的编排也无法实现这个功能
类似这种条件的判断 
我希望走指定回复的判断条件是,1.知识库检索不到和2.上下文没有匹配到问题信息 目前的流程来看,似乎无法同时满足这两个条件
单卡跑32B-int4 占用显存41G
支持 ,这个感觉很有必要,不然工具调用耦合度很高
希望能增加html的渲染
> 不能用openai兼容,要用proxy模式 请问如何配置proxy模式,来适配rerank模型呢
这个应用场景还是很多的,比如问题通过后端判断了,这个人运行触发哪个哪些流程,这个是动态的。 可能有十一二个小流程,通过动态渲染就能动态展示了