eval-scope
eval-scope copied to clipboard
simpleQA, reviewing 很慢
自查清单
在提交 issue 之前,请确保您已完成以下步骤:
问题描述
simpleQA, 将数据集下载到本地,推理结束后的reviewing很慢,使用的evalscope版本是目前的master源码安装
EvalScope 版本(必填)
目前的master版本的源码安装
使用的工具
- [x] Native / 原生框架
- [ ] Opencompass backend
- [ ] VLMEvalKit backend
- [ ] RAGEval backend
- [ ] Perf / 模型推理压测工具
- [ ] Arena / 竞技场模式
执行的代码或指令
evalscope eval \
--model qwen3_8b \
--api-url http://127.0.0.1:8801/v1 \
--api-key EMPTY \
--eval-type service \
--datasets simple_qa \
--eval-batch-size 128 \
--dataset-args '{"ifeval": {"metric_list": ["Pass@1"], "local_path": "/mnt/rl/data/benchmarks/ifeval"},"mmlu_pro": {"local_path": "/mnt/rl/data/mmlu_pro/data"},"super_gpqa": {"metric_list": ["Pass@1"],"local_path": "/mnt/rl/data/supergpqa/data"},"aime25": {"metric_list": ["Pass@1"], "local_path": "/mnt/rl/data/benchmarks/aime25/test.jsonl"},"gpqa": {"metric_list": ["Pass@1"], "local_path": "/mnt/rl/data/benchmarks/gpqa", "subset_list": ["gpqa_diamond"]},"simple_qa": {"local_path": "/mnt/rl/data/benchmarks/SimpleQA"},"super_gpqa": {"metric_list": ["Pass@1"],"local_path": "/mnt/rl/data/benchmarks/supergpqa"}}' \
--generation-config temperature=0.6,max_tokens=28000,n=1 \
--timeout 400000 2>&1 | tee evalscope.log
## 错误日志
请粘贴完整的错误日志或控制台输出。
## 运行环境
- 操作系统:
- Python版本:
## 其他信息
如果有其他相关信息,请在此处提供。
请问设置judge model了吗 参考这个文档:https://evalscope.readthedocs.io/zh-cn/latest/get_started/parameters.html#judge
感谢你的反馈!我们将关闭此问题。如果您有任何疑问,请随时重新打开它。如果EvalScope对您有所帮助,欢迎给我们点个STAR以示支持,谢谢!
请问设置judge model了吗 参考这个文档:https://evalscope.readthedocs.io/zh-cn/latest/get_started/parameters.html#judge
解决了,谢谢