AlignBench icon indicating copy to clipboard operation
AlignBench copied to clipboard

大模型多维度中文对齐评测基准 (ACL 2024)

Results 16 AlignBench issues
Sort by recently updated
recently updated
newest added

![image](https://github.com/THUDM/AlignBench/assets/35555818/251cac13-9555-4335-88a7-9cba2e4c4a54) 请问extract_score error是什么原因,该怎么解决

用 datasets 加载数据,输出第一个样本,下面的是输出: ``` {'question_id': 1, 'category': '专业能力', 'subcategory': '音乐', 'question': '高音单簧管和高音萨克斯的调性相同吗?如果相同,请说出他们的调性,如果不同,请分别说出他们的调性', 'reference': '高音单簧管和高 音萨克斯的调性不同。高音单簧管的调性通常为E♭,而高音萨克斯的调性则为B♭。\n', '29': None, '295': None, '352': None, '633': None, '638': None, '640': None, '643': None, '670':...

评测网站出问题,提交后状态长时间显示为: processing, 最终显示error.即使提交此前能正常返回评估结果的csv文件也遇到这个错误。

请问上传结果得到测试结论后,如何将测试结果公开更新到 LeaderBoard 里?

matched: '事实正确性': '待定', '满足用户需求': '待定', '清晰度': 9, '完备性': 9, '综合得分': '待定'

您好, https://llmbench.ai/align 网站注册后,点击登录按钮没有反应。在多个浏览器下尝试过,均无法登录。

上传网站后得分4.76 我的测试代码: ` from inference.models import api_model import json import requests from transformers import AutoTokenizer, AutoModel #import zhipuai #zhipuai.api_key = "" # TODO class chatglm(api_model): def __init__(self, workers=10): #self.model_name =...

In judge.py, when multiple workers are set up, the output can sometimes be written out of order. ``` f.write(json.dumps(doc, ensure_ascii=False)) f.write('\n') ``` Specifically, when the judgement is written to the...