levin
levin
use langchain for testing llm, when two client connect to ollama for chat api response, it stuck with same following code: `ChatOllama(model=xxx, base_url=xxx, verbose=True, temperature=0, num_ctx=2048)` (same model) and i...
部署方案1: 代码:FlagEmbedding-FlagReranker(model_name, use_fp16=True).compute_score() 部署方案2: 使用text-embeddings-inference:cpu-1.0部署 决定使用方案1是因为text-embeddings-inference:cpu-1.0调用太慢了,通常需要10多秒 请问一下为什么两者分数差这么多,另外也测试了SentenceTransformer-CrossEncoder和方案2几乎没差
业务场景:构建ChatSDK智能体网页应用,智能体中会引入插件,插件调用业务接口(需要根据用户权限,返回对应的权限数据) 问题:如何将ChatSDK中构建的userinfo-id/自定义参数 传递给智能体,或者有什么其他比较好的方案在智能体/工作流中来获取当前用户的业务身份