FewCLUE icon indicating copy to clipboard operation
FewCLUE copied to clipboard

人工标注eprstmt 得分86.59,数据集质量堪忧。。

Open lindabigwheel opened this issue 3 years ago • 3 comments

eprstmt分析badcase, 发现数据集质量不靠谱, 于是众包标注了下test数据集, 很多是模棱两可, 提交 eprstmt 得分86.59, 搞笑了。。

Human performance 说明的不是任务难度、或算法天花板, 而是说明数据集质量不行啊 , 刷这个榜没太大意义。。

lindabigwheel avatar Mar 07 '22 12:03 lindabigwheel

你好,可以方便提供您这边标注的语料结果给我们么?我们可以参考下具体看下哪些case比较模棱两可~

xiaojinglu avatar Mar 08 '22 12:03 xiaojinglu

感谢反馈问题。我们这边测试出human performance的准确率是90%,看上去当前最好的模型解决这个人类的效果。

brightmart avatar Mar 09 '22 07:03 brightmart

  1. 每个任务的human performance, 是有几个标注人员 标注了多少数据 统计出来的? 标注结果的细节能否放出来一下?

lindabigwheel avatar Mar 09 '22 08:03 lindabigwheel