LangBot [Feature]: 是否能像现有的问答AI一样，提供流式回复用户，deepseek深度思考模型，体感用下来会很卡顿

这是一个？

新功能

详细描述

问题很简单，但是有深度思考，回复就很慢

Feb 09 '25 12:02 leeAx

希望有流式输出，用户使用体验就好很多

Feb 09 '25 12:02 leeAx

+1

Feb 09 '25 12:02 likeaturtle

目前飞书可以实现流式消息输出

Feb 09 '25 13:02 leeAx

+1

Feb 10 '25 02:02 wuwen635028360

或者能不能把deepseek的think过程做个可选项做一个屏蔽直接输出结果不然输出的结果太多了

Feb 17 '25 04:02 Yuai007

目前飞书可以实现流式消息输出

@leeAx 这个需要配置什么吗，现在默认应该不是流式的消息输出，感官上回复很慢

Feb 18 '25 08:02 whtis

+1

Feb 19 '25 01:02 94lw

飞书流式输出 +1

Feb 19 '25 03:02 hiSober

1.这个功能不可能实现的微信端限制除非你不在微信上面用自己开发程序，直接调流式输出的接口，流式接收就行了 2.还有think过程，过滤不掉除非不用deepseek_r1，或者自己中间加个代码处理一下，只不过这样回复时间就会变的很长了，体验更不好

Feb 21 '25 06:02 zhangshaorui

1.这个功能不可能实现的微信端限制除非你不在微信上面用自己开发程序，直接调流式输出的接口，流式接收就行了 2.还有think过程，过滤不掉除非不用deepseek_r1，或者自己中间加个代码处理一下，只不过这样回复时间就会变的很长了，体验更不好

有没有这种可能，不使用流式输出的接口，当大模型开始输出时，缓存到队列（Queue）或缓冲区（Buffer）中，再一段段的转发到消息端，实现类似流式输出的效果。

Mar 06 '25 16:03 VipCrazyMaster

类似这种方案应该可行，我查了下貌似这种方法（缓存后再逐步转发，实现类流式输出）是一种常见的伪流式处理技术，在 AI 生成内容、日志处理、网络传输等场景中都能用到。： import io import time

buffer = io.StringIO()

def model_output(): """大模型输出并存入缓冲区""" for word in ["Hello", "world!", "This", "is", "a", "test."]: time.sleep(1) # 模拟计算延迟 buffer.write(word + " ") # 缓存数据 buffer.flush() # 立即可读

def message_dispatcher(): """逐步读取缓冲区数据""" while True: content = buffer.getvalue() if content: print("\r" + content, end="", flush=True) # 模拟流式输出 time.sleep(0.5)

import threading threading.Thread(target=model_output).start() threading.Thread(target=message_dispatcher).start()

Mar 06 '25 16:03 VipCrazyMaster

如果使用这种方式应该也意味着可以突破某些消息平台，如企业微信等单条消息回复字数的限制。

Mar 06 '25 16:03 VipCrazyMaster

已有部分平台支持流式，可以更新一下。

Nov 06 '25 12:11 RockChinQ