Linchen Xiao
Linchen Xiao
> @erikmajlath It's something along these lines for me too. I can tell that when I run the retrieval sample: > > the movies ds is shaped like this: >...
You can remove you result folder under your output folder and rerun your evaluation by using `python run.py configs/eval_demo.py --reuse --mode eval --dump-eval-details`. In this case, your prediction and final...
Update Readme.md also
The first few examples are left out for the few shot evluation settings.
Follow https://doc.opencompass.org.cn/zh_CN//advanced_guides/new_dataset.html to update dataset metadata please
> 你好,Long (>128k) 只是评测数据的一个subset,代表所有测试数据中长度大于 128k token 的数据集合。在所有数据上的评测我们都是用的`--max_model_len 131072`,对于超过 128k token 的序列作截断。  数据集的介绍中数据集长度最长会到 2m,请问下 1. 请问你们的截断方法,如果整体 prompt 被 vllm 的服务截断的话,如何确保指令和答案信息能够被保留?如果要截断至 128k,在提供数据时为什么不直接截断 2. 针对不同模型的长文评测,分别用的什么配置?是否是用的 vllm 默认读取的模型config
看了下 Paper,是从中间截断,请问这种方式如何确保 context 中的答案信息能够被保留?另外对于 Expert来说,看的是全文,对模型来说是截断的128k context,这里的比较是否会有diff
The configuration you use requires an LLM as the Judger to verify the result. Follow `examples/eval_deepseek_r1.py` and also check `https://opencompass.readthedocs.io/zh-cn/latest/advanced_guides/llm_judge.html`
Inferencing: 17%|█▋ | 1/6 [02:51