eval-scope
eval-scope copied to clipboard
A streamlined and customizable framework for efficient large model evaluation and performance benchmarking
1、请问针对lora微调之后但没有合并的大模型,如何加载checkpoint进行评测呢? 2、支持自定义评测数据集进行评测吗?如何操作呢?或对格式有什么要求吗?

https://modelscope.oss-cn-beijing.aliyuncs.com/open_data/benchmark/data.zip 解压后 ceval 的路径为 data/ceval,而 ceval_adapter 中加载的路径为 data/modelscope/ceval-exam,需要手动修改才能正常加载本地数据集。 建议更新托管数据集。
commad: ``` python llmuses/run.py \ --model-type mistral-7b-instruct-v2 \ --model ../Chinese-LLM-Chat/models/Mistral-7B-Instruct-v0.2 \ --datasets arc \ --dataset-hub Local \ --dataset-dir ../opencompass/data/data/ARC ``` error: ``` 2024-04-15 14:52:39,092 - modelscope - INFO - Loading...
目前是根据model_id判断模型类型的,如果修改模型文件夹名,或使用本地ckpt路径,就无法从路径里提取出模型名比如「chatglm2-6b」,导致template get失败,默认使用 default prompt template,可能导致generate出现问题。
请问为什么把benchmark的few-shot都写死成0了?自己手动设置few_shot_num=few_shot_num是否有问题,在测试hellaswag时zero-shot分数反而比10-shot高,感谢您的回复
 帮忙看看命令行有什么问题
Benchmarking summary: Time taken for tests: 22.512 seconds Expected number of requests: 100 Number of concurrency: 128 Total requests: 100 Succeed requests: 100 Failed requests: 0 Average QPS: 4.442 Average...
大佬好,请教下,我用evalscope在HallusionBench数据集上测试,报告是 [{'InternVL2-26B-DPO_HallusionBench_score': {'split': 'Overall', 'aAcc': '59.89473684210527', 'fAcc': '34.39306358381503', 'qAcc': '33.62637362637363'}}] 没看懂这几个指标是啥意思。https://github.com/tianyi-lab/HallusionBench 在官方GitHub也没看到