mikestut
mikestut
### Is there an existing issue for this? - [X] I have searched the existing issues ### Current Behavior ### 20230506都正常使用,到了0507晚上就不行了。 ### python web_demo.py 'HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with...
环境:ubuntu20.04 torch 1.10.1 transformers 4.27.1 code: import os import torch from huggingface_hub import snapshot_download from transformers import AutoConfig, AutoTokenizer, AutoModelForCausalLM from accelerate import init_empty_weights, load_checkpoint_and_dispatch os.environ['CUDA_VISIBLE_DEVICES'] = "0,1" model_path =...
声明export SERPAPI_KEY=“***********************************”后执行如下:  GPU加载为13GB,是chatglm2-6B模型。 
webglm2B测试还不错,想用webglm10B,结果报显存不足;单卡要多少G才够?当前有2张GPU 显存是24G,不知道怎么搞可以把10B搞起来。 另外,WEBGLM10B的INT8、INT4,是否有下载?
### 检查清单 - [ ] 1. 我已经搜索过相关问题,但未能获得预期的帮助 - [x] 2. 该问题在最新版本中尚未修复 - [ ] 3. 请注意,如果您提交的BUG相关 issue 缺少对应环境信息和最小可复现示例,我们将难以复现和定位问题,降低获得反馈的可能性 - [ ] 4. 如果您提出的不是bug而是问题,请在讨论区发起讨论 https://github.com/kvcache-ai/ktransformers/discussions。否则该 issue 将被关闭 - [ ] 5....