lindabigwheel

Results 2 issues of lindabigwheel

eprstmt分析badcase, 发现数据集质量不靠谱, 于是众包标注了下test数据集, 很多是模棱两可, 提交 eprstmt 得分86.59, 搞笑了。。 Human performance 说明的不是任务难度、或算法天花板, 而是说明数据集质量不行啊 , 刷这个榜没太大意义。。

![image](https://user-images.githubusercontent.com/11383241/149318681-ddd1c39c-caa1-4a7e-aa06-2024c41574ff.png)