eval-scope simpleQA, reviewing 很慢

自查清单

在提交 issue 之前，请确保您已完成以下步骤:

[x] 我已仔细阅读了相关使用说明文档
[x] 我已查看了常见问题解答
[x] 我已搜索并查看了现有的 issues，确认这不是一个重复的问题

问题描述

simpleQA, 将数据集下载到本地，推理结束后的reviewing很慢，使用的evalscope版本是目前的master源码安装

EvalScope 版本（必填）

目前的master版本的源码安装

使用的工具

[x] Native / 原生框架
[ ] Opencompass backend
[ ] VLMEvalKit backend
[ ] RAGEval backend
[ ] Perf / 模型推理压测工具
[ ] Arena / 竞技场模式

执行的代码或指令

evalscope eval \
 --model qwen3_8b \
 --api-url http://127.0.0.1:8801/v1 \
 --api-key EMPTY \
 --eval-type service \
 --datasets simple_qa \
 --eval-batch-size 128 \
 --dataset-args '{"ifeval": {"metric_list": ["Pass@1"], "local_path": "/mnt/rl/data/benchmarks/ifeval"},"mmlu_pro": {"local_path": "/mnt/rl/data/mmlu_pro/data"},"super_gpqa": {"metric_list": ["Pass@1"],"local_path": "/mnt/rl/data/supergpqa/data"},"aime25": {"metric_list": ["Pass@1"], "local_path": "/mnt/rl/data/benchmarks/aime25/test.jsonl"},"gpqa": {"metric_list": ["Pass@1"], "local_path": "/mnt/rl/data/benchmarks/gpqa", "subset_list": ["gpqa_diamond"]},"simple_qa": {"local_path": "/mnt/rl/data/benchmarks/SimpleQA"},"super_gpqa": {"metric_list": ["Pass@1"],"local_path": "/mnt/rl/data/benchmarks/supergpqa"}}' \
 --generation-config temperature=0.6,max_tokens=28000,n=1 \
 --timeout 400000 2>&1 | tee evalscope.log 

## 错误日志

请粘贴完整的错误日志或控制台输出。

## 运行环境

- 操作系统：
- Python版本：

## 其他信息

如果有其他相关信息，请在此处提供。

May 23 '25 11:05 joey9503

请问设置judge model了吗参考这个文档：https://evalscope.readthedocs.io/zh-cn/latest/get_started/parameters.html#judge

May 24 '25 08:05 Yunnglin

感谢你的反馈！我们将关闭此问题。如果您有任何疑问，请随时重新打开它。如果EvalScope对您有所帮助，欢迎给我们点个STAR以示支持，谢谢！

May 28 '25 02:05 Yunnglin

请问设置judge model了吗参考这个文档：https://evalscope.readthedocs.io/zh-cn/latest/get_started/parameters.html#judge

解决了，谢谢

May 28 '25 07:05 joey9503