Zbaoli

Results 4 comments of Zbaoli

@noforit 我是这样配的,但还是只有一张卡在跑,能帮我看看原因吗; ``` infer = dict( partitioner=dict(type=NumWorkerPartitioner, num_worker=2), runner=dict( type=LocalRunner, max_num_workers=16, task=dict(type=OpenICLInferTask)) ) ``` ``` models = [ dict( type=VLLM, abbr='qwen-7b-chat-vllm', path="/home/zbl/data/llm/qwen/Qwen-7B-Chat", model_kwargs=dict(tensor_parallel_size=1), meta_template=_meta_template, max_out_len=100, max_seq_len=2048, batch_size=100, generation_kwargs=dict(temperature=0), end_str='', )...

@IcyFeather233 我知道你的意思,`tensor_parallel_size`参数可以设置多卡推理,但我试了下使用多卡推理速度并没有比单卡变快; 所以我想实现的是多个任务并行推理:比如我有n个任务,同时用m个模型,每个模型执行一个任务的推理;

@noforit 谢谢你的回复,但我在models的配置中加了`run_cfg=dict(num_gpus=1, num_proces=1)`参数之后还是只有一个 gpu 在运行;

我貌似遇到同样的问题,deepseek reasoner 无法使用,发送请求之后word count 有计数,说明请求成功了,但是返回结果没有正常显示,硬件是 mac M 系列芯片,chatbox 1.9.7 版本