AlignBench issues

5

![image](https://github.com/THUDM/AlignBench/assets/35555818/251cac13-9555-4335-88a7-9cba2e4c4a54) 请问extract_score error是什么原因，该怎么解决

Chenzongchao

data_release.jsonl 里有一些数据有问题

用 datasets 加载数据，输出第一个样本，下面的是输出： ``` {'question_id': 1, 'category': '专业能力', 'subcategory': '音乐', 'question': '高音单簧管和高音萨克斯的调性相同吗？如果相同，请说出他们的调性，如果不同，请分别说出他们的调性', 'reference': '高音单簧管和高音萨克斯的调性不同。高音单簧管的调性通常为E♭，而高音萨克斯的调性则为B♭。\n', '29': None, '295': None, '352': None, '633': None, '638': None, '640': None, '643': None, '670':...

Zbaoli

评测网站报错

8

评测网站出问题，提交后状态长时间显示为： processing, 最终显示error.即使提交此前能正常返回评估结果的csv文件也遇到这个错误。

xiaocc612

如何将测试结果公开至 LeaderBoard?

请问上传结果得到测试结论后，如何将测试结果公开更新到 LeaderBoard 里？

tianxin1860

为什么用GPT-4评测的时候结果会出现‘待定’

1

matched: '事实正确性': '待定', '满足用户需求': '待定', '清晰度': 9, '完备性': 9, '综合得分': '待定'

xiatingyu

网站无法登录

您好， https://llmbench.ai/align 网站注册后，点击登录按钮没有反应。在多个浏览器下尝试过，均无法登录。

Alice1998

为什么模型输出越长，分数越高？

cos0sin0

chatglm3测试结果差异大

1

上传网站后得分4.76 我的测试代码： ` from inference.models import api_model import json import requests from transformers import AutoTokenizer, AutoModel #import zhipuai #zhipuai.api_key = "" # TODO class chatglm(api_model): def __init__(self, workers=10): #self.model_name =...

jyjyjyjyjyjyj

fix: judgement and newline order corruption in multithreading

In judge.py, when multiple workers are set up, the output can sometimes be written out of order. ``` f.write(json.dumps(doc, ensure_ascii=False)) f.write('\n') ``` Specifically, when the judgement is written to the...

Azure99

AlignBench
AlignBench copied to clipboard

Metadata

最近提交的评测为什么都error了？

请问extract_score error是什么原因，该怎么解决

data_release.jsonl 里有一些数据有问题

评测网站报错

如何将测试结果公开至 LeaderBoard?

为什么用GPT-4评测的时候结果会出现‘待定’

网站无法登录

为什么模型输出越长，分数越高？

chatglm3测试结果差异大

fix: judgement and newline order corruption in multithreading

← Metadata

Owner

Metadata

AlignBench AlignBench copied to clipboard

Metadata

← Metadata

Owner

Metadata

AlignBench
AlignBench copied to clipboard