VisualGLM-6B
VisualGLM-6B copied to clipboard
有没有batch推理的实现呢?
有没有batch推理的实现呢?
batch推理不太高效,因为有的batch生成了结束符,其他的还没有,这样很浪费。sat中的fill sequence支持,需要输入batch size参数,但是不推荐。
一条一条推理太慢了吧,有没有提效的trick呀
@Sleepychord sat的filling_sequence的输入 seq 是一维的,batch要怎么组织输入呢
同求,如何加速推理呢?