LIUKAI0815
LIUKAI0815
python3 convert_checkpoint.py --model_dir /workspace/lk/model/Qwen/14B --output_dir ./tllm_checkpoint_1gpu_gptq --dtype float16 --use_weight_only --weight_only_precision int4_gptq --per_group [TensorRT-LLM] TensorRT-LLM version: 0.10.0.dev2024042300 0.10.0.dev2024042300 Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:02
python convert_checkpoint.py --model_dir /workspace/lk/model/Qwen/14B/ --output_dir ./tllm_checkpoint_1gpu_fp16_wq --dtype float16 --use_weight_only --weight_only_precision int8 [TensorRT-LLM] TensorRT-LLM version: 0.10.0.dev2024042300 0.10.0.dev2024042300 Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:02
[TensorRT-LLM] TensorRT-LLM version: 0.10.0.dev2024050700 [TensorRT-LLM][INFO] Engine version 0.10.0.dev2024050700 found in the config file, assuming engine(s) built by new builder API. [TensorRT-LLM][WARNING] [json.exception.out_of_range.403] key 'cross_attention' not found [TensorRT-LLM][WARNING] Optional value for...
swift export 对百川2进行awq量化 指定 --tensor_parallel_size --gpu_memory_utilization 感觉根本不管用,指定4张卡,只会用两张卡,然后就是爆显存
StructBERT零样本分类
因为在训练的时候,加载没有量化的模型,训练完再量化资源不够。可以直接训练官方量化后的模型吗
**Describe the bug** What the bug is, and how to reproduce, better with screenshots(描述bug以及复现过程,最好有截图) ms-swift 2.2.5 ![Uploading 企业微信截图_17230037694865.png…]() 已经更新到最新的版本,在--model_type gemma2-2b-instruct微调的时候还是报错了
sh scripts/run_assistant_server.sh --served-model-name Qwen2-7B-Instruct --model path/to/weights 这个比VLLM推理速度慢吗