eval-scope icon indicating copy to clipboard operation
eval-scope copied to clipboard

A streamlined and customizable framework for efficient large model evaluation and performance benchmarking

Results 142 eval-scope issues
Sort by recently updated
recently updated
newest added

请问,评估支持使用昇腾910 NPU嘛?

使用https://evalscope.readthedocs.io/zh-cn/latest/user_guides/arena.html#id8 因为没有baseline,我先跑了两个模型的预测,得到了两个jsonl预测。然后将一个作为baseline,一个作为target_answers,用openai评估完后得到registry/data/arena/reviews/review_gpt4_pair_baseline.jsonl,如下: 应该是tie吧,但是每次都是model_a赢。 请问baseline_file的示例和跑一次模型预测一样吗? {"model_a": "2.2", "model_b": "self", **"win_1": "model_a", "win_2": "model_a"**, "anony": true, "tstamp": 1724924814.5014713, "language": "NA", "question_id": 1, "category": "generic", "question": "How can I improve my time management...

希望支持一下opencompass 的lawbench 法律专业测评集,Lawbench自带评分标准,对接上即可。 [https://lawbench.opencompass.org.cn/home](url)

enhancement
native

* support swanlab workspace env for upload perf result to swanlab public organization

## 自查清单 在提交 issue 之前,请确保您已完成以下步骤: - [ ] 我已仔细阅读了[相关使用说明文档](https://evalscope.readthedocs.io/zh-cn/latest/get_started/parameters.html) - [ ] 我已查看了[常见问题解答](https://evalscope.readthedocs.io/zh-cn/latest/get_started/faq.html) - [ ] 我已搜索并查看了现有的 issues,确认这不是一个重复的问题 ## 问题描述 ```bash This error occurs when: 1. The API response does...

## 自查清单 在提交 issue 之前,请确保您已完成以下步骤: - [ ] 我已仔细阅读了[相关使用说明文档](https://evalscope.readthedocs.io/zh-cn/latest/get_started/parameters.html) - [ ] 我已查看了[常见问题解答](https://evalscope.readthedocs.io/zh-cn/latest/get_started/faq.html) - [ ] 我已搜索并查看了现有的 issues,确认这不是一个重复的问题 ## 问题描述 Exception: Unknown benchmark: tool_bench. Available tasks: ['drop', 'humaneval', 'mmlu_redux', 'hpdv2',...

1:能否将完整的log上传swanlab中 2:能否指定上传至私有化部署的swanlab中

## 自查清单 在提交 issue 之前,请确保您已完成以下步骤: - [x ] 我已仔细阅读了[相关使用说明文档](https://evalscope.readthedocs.io/zh-cn/latest/get_started/parameters.html) - [x ] 我已查看了[常见问题解答](https://evalscope.readthedocs.io/zh-cn/latest/get_started/faq.html) - [x ] 我已搜索并查看了现有的 issues,确认这不是一个重复的问题 ## 问题描述 ```python Traceback (most recent call last): File "", line 1,...

## 自查清单 在提交 issue 之前,请确保您已完成以下步骤: - [x] 我已仔细阅读了[相关使用说明文档](https://evalscope.readthedocs.io/zh-cn/latest/get_started/parameters.html) - [x] 我已查看了[常见问题解答](https://evalscope.readthedocs.io/zh-cn/latest/get_started/faq.html) - [x] 我已搜索并查看了现有的 issues,确认这不是一个重复的问题 ## 问题描述 simpleQA, 将数据集下载到本地,推理结束后的reviewing很慢,使用的evalscope版本是目前的master源码安装 ## EvalScope 版本(必填) 目前的master版本的源码安装 ## 使用的工具 - [x] Native / 原生框架...