AIxyz
AIxyz
pip install transformers_stream_generator==0.0.4 后调试 llama 时,发现若使用如下命令 ````py tokens = None for token in torch_model.generate( input_ids=input_ids, max_length=1024, num_beams=1, num_return_sequences=1, no_repeat_ngram_size=15, repetition_penalty=1, temperature=0.65, do_stream=True): if tokens is None: tokens = token else:...
用现有代码跑 web_demo.py 时速度很慢,经定位发现是因为 models/chatglm/\_\_init\_\_.py 中 run_web_demo 调用 run 使用了 chat 接口 为换成调用 stream_chat 接口,在 web_demo.py 里强行将代码修改如下是可以正常使用的: ````py # for response, history in model.run_web_demo(input, history): for response, history in model.model.stream_chat(model.tokenizer, input,...