eval-scope issues

微调模型评测&自建评测数据集

1

1、请问针对lora微调之后但没有合并的大模型，如何加载checkpoint进行评测呢？ 2、支持自定义评测数据集进行评测吗？如何操作呢？或对格式有什么要求吗？

HaltonJiang

dataset and api process separate

liuyhwangyh

怎么加载本地模型呀

1

![Snipaste_2024-05-13_21-09-53](https://github.com/modelscope/eval-scope/assets/136138700/08544391-317b-426a-9016-bd80159c5e6d)

FrankGnor

提供的本地数据集文件夹结构有误，无法直接使用

3

https://modelscope.oss-cn-beijing.aliyuncs.com/open_data/benchmark/data.zip 解压后 ceval 的路径为 data/ceval，而 ceval_adapter 中加载的路径为 data/modelscope/ceval-exam，需要手动修改才能正常加载本地数据集。建议更新托管数据集。

thewangcj

commad： ``` python llmuses/run.py \ --model-type mistral-7b-instruct-v2 \ --model ../Chinese-LLM-Chat/models/Mistral-7B-Instruct-v0.2 \ --datasets arc \ --dataset-hub Local \ --dataset-dir ../opencompass/data/data/ARC ``` error: ``` 2024-04-15 14:52:39,092 - modelscope - INFO - Loading...

zyb8543d

model_id为local ckpt路径时，infer template映射和解析出现问题

目前是根据model_id判断模型类型的，如果修改模型文件夹名，或使用本地ckpt路径，就无法从路径里提取出模型名比如「chatglm2-6b」，导致template get失败，默认使用 default prompt template，可能导致generate出现问题。

wangxingjun778

关于few-shot的一些问题

3

请问为什么把benchmark的few-shot都写死成0了？自己手动设置few_shot_num=few_shot_num是否有问题，在测试hellaswag时zero-shot分数反而比10-shot高，感谢您的回复

MrZhang1996

模型推理性能压测 evalscope perf 长时间没有返回

![image](https://github.com/user-attachments/assets/84909d47-962f-4271-bb66-25bc07a489bd) 帮忙看看命令行有什么问题

undyingfame

能够描述一下每个指标的含义，有几个指标不太懂什么意思

2

Benchmarking summary: Time taken for tests: 22.512 seconds Expected number of requests: 100 Number of concurrency: 128 Total requests: 100 Succeed requests: 100 Failed requests: 0 Average QPS: 4.442 Average...

shell-nlp

HallusionBench数据集的"aAcc","fAcc","qAcc"指标含义

1

大佬好，请教下，我用evalscope在HallusionBench数据集上测试，报告是 [{'InternVL2-26B-DPO_HallusionBench_score': {'split': 'Overall', 'aAcc': '59.89473684210527', 'fAcc': '34.39306358381503', 'qAcc': '33.62637362637363'}}] 没看懂这几个指标是啥意思。https://github.com/tianyi-lab/HallusionBench 在官方GitHub也没看到

stay-leave

eval-scope
eval-scope copied to clipboard

Metadata

微调模型评测&自建评测数据集

dataset and api process separate

怎么加载本地模型呀

提供的本地数据集文件夹结构有误，无法直接使用

不能加载本地模型

model_id为local ckpt路径时，infer template映射和解析出现问题

关于few-shot的一些问题

模型推理性能压测 evalscope perf 长时间没有返回

能够描述一下每个指标的含义，有几个指标不太懂什么意思

HallusionBench数据集的"aAcc","fAcc","qAcc"指标含义

← Metadata

Owner

Metadata

eval-scope eval-scope copied to clipboard

Metadata

← Metadata

Owner

Metadata

eval-scope
eval-scope copied to clipboard