eval-scope icon indicating copy to clipboard operation
eval-scope copied to clipboard

simpleQA, reviewing 很慢

Open joey9503 opened this issue 9 months ago • 1 comments

自查清单

在提交 issue 之前,请确保您已完成以下步骤:

问题描述

simpleQA, 将数据集下载到本地,推理结束后的reviewing很慢,使用的evalscope版本是目前的master源码安装

Image

EvalScope 版本(必填)

目前的master版本的源码安装

使用的工具

  • [x] Native / 原生框架
  • [ ] Opencompass backend
  • [ ] VLMEvalKit backend
  • [ ] RAGEval backend
  • [ ] Perf / 模型推理压测工具
  • [ ] Arena / 竞技场模式

执行的代码或指令

evalscope eval \
 --model qwen3_8b \
 --api-url http://127.0.0.1:8801/v1 \
 --api-key EMPTY \
 --eval-type service \
 --datasets simple_qa \
 --eval-batch-size 128 \
 --dataset-args '{"ifeval": {"metric_list": ["Pass@1"], "local_path": "/mnt/rl/data/benchmarks/ifeval"},"mmlu_pro": {"local_path": "/mnt/rl/data/mmlu_pro/data"},"super_gpqa": {"metric_list": ["Pass@1"],"local_path": "/mnt/rl/data/supergpqa/data"},"aime25": {"metric_list": ["Pass@1"], "local_path": "/mnt/rl/data/benchmarks/aime25/test.jsonl"},"gpqa": {"metric_list": ["Pass@1"], "local_path": "/mnt/rl/data/benchmarks/gpqa", "subset_list": ["gpqa_diamond"]},"simple_qa": {"local_path": "/mnt/rl/data/benchmarks/SimpleQA"},"super_gpqa": {"metric_list": ["Pass@1"],"local_path": "/mnt/rl/data/benchmarks/supergpqa"}}' \
 --generation-config temperature=0.6,max_tokens=28000,n=1 \
 --timeout 400000 2>&1 | tee evalscope.log 

## 错误日志

请粘贴完整的错误日志或控制台输出。

## 运行环境

- 操作系统:
- Python版本:

## 其他信息

如果有其他相关信息,请在此处提供。

joey9503 avatar May 23 '25 11:05 joey9503

请问设置judge model了吗 参考这个文档:https://evalscope.readthedocs.io/zh-cn/latest/get_started/parameters.html#judge

Yunnglin avatar May 24 '25 08:05 Yunnglin

感谢你的反馈!我们将关闭此问题。如果您有任何疑问,请随时重新打开它。如果EvalScope对您有所帮助,欢迎给我们点个STAR以示支持,谢谢!

Yunnglin avatar May 28 '25 02:05 Yunnglin

请问设置judge model了吗 参考这个文档:https://evalscope.readthedocs.io/zh-cn/latest/get_started/parameters.html#judge

解决了,谢谢

joey9503 avatar May 28 '25 07:05 joey9503