nl2code-dataset
nl2code-dataset copied to clipboard
Aix-bench, the Java benchmark for code synthesis problem.
请问能公开对各个代码样本的人类评价分数吗
前一段时间关注到了skcoder,在aixbench上效果很好,所以想尝试复现一下在其实验结果。 但是有两个问题,希望能够解答🙏🏻 1 想问一下skcoder这篇论文中的aixbench用的测试集就是这个仓库里的文件吗? 2 如何计算pass@k呢,在humaneval中是通过重复生成200个答案,然后通过采样的方式获得稳定的pass@k的指标,这个仓库中实现代码我看是直接把生成的代码封装成类跑一下evaluation查看是否通过,这样的结果应该算作是pass@1。但是选取这样生成一次的结果来计算指标的偏差可能存在过大的问题,所以想问一下skcoder中pass@k的计算方式和这个仓库一样吗?还是说有什么其他等效的方法。 希望能得到您的回复,感谢感谢!
Copilot的结果是如何测试的?通过Codex API接口吗?
需要将项目构建成maven吗,因为发现有一些包不存在