heart18z

Results 15 comments of


                                            heart18z

部署了Qwen1.5-32B-Chat-GPTQ-Int4可以运行，但出现了CUDA extension not installed，推理速度很慢

32B-Chat-AWQ回复慢，vllm4部署，有什么解决办法吗

指定回复后上下文就被截断

已经确认4.8的编排也无法实现这个功能

指定回复后上下文就被截断

类似这种条件的判断 ![image](https://github.com/labring/FastGPT/assets/106878712/ec8d5d05-5b4a-4bc2-a80f-70b11a12af08)

指定回复后上下文就被截断

我希望走指定回复的判断条件是，1.知识库检索不到和2.上下文没有匹配到问题信息目前的流程来看，似乎无法同时满足这两个条件

用2080TI 22G单张显卡跑 qwen 1.5 32B-INT4模型没有成功

单卡跑32B-int4 占用显存41G

作者你好，请教一下，生成多段音频的时候，有时候每段音频听起来空间感不一样呢？比如第一段听起来声音清脆一些，第二段听起来低沉一些

音色没固定

工具调用组件建议将工具调用和LLM对话分开

支持，这个感觉很有必要，不然工具调用耦合度很高

前端html展示支持

希望能增加html的渲染

能新增重排序模型API的支持吗

> 不能用openai兼容，要用proxy模式请问如何配置proxy模式，来适配rerank模型呢

用户选择节点-动态生成

这个应用场景还是很多的，比如问题通过后端判断了，这个人运行触发哪个哪些流程，这个是动态的。可能有十一二个小流程，通过动态渲染就能动态展示了

1
2
›