Graph-R1 Corpus构建

非常棒的工作！关于Graph-R1，我还有如下问题想请教：请问每个数据集的corpus是如何构建的？是基于sample出来的 train&test set的content的构建的还是基于原始数据集的content？另外如果我想使用论文中未用到的数据集来训练，该如何构建corpus呢？

Sep 09 '25 11:09 FanDongzhe123

感谢您的关注！在 Graph-R1 中，每个数据集的 corpus 是基于 sample 出来的 train 和 test 集合的知识组合构建的。如果您想在论文未涉及的新数据集上进行训练，也完全可以复用相同流程：只需将新数据集中的内容组织成类似的格式，直接更改 corpus 文件中的字符串即可完成构建。

Sep 09 '25 14:09 LHRLAB

感谢您的回复！我还想请教一下，如果我想额外从原始数据集中sample出一些train/test data point，例如在HotpotQA中再额外sample 1000个节点 (共6120节点）来训练，我是否需要重新构建KG？或者说我是否可以把根据新questions构建一个hypergraph并和之前的graph合并在一起？

Sep 09 '25 14:09 FanDongzhe123

可以合并的，只需要设置好expr为之前的超图，再做insert新的corpus就会插进去。

Sep 09 '25 15:09 LHRLAB

再次感谢您的回复！我的理解是: 我在expr中保存好之前的超图，然后再在新的corpus上运行script_build.py就可以insert了对吗？

Sep 09 '25 15:09 FanDongzhe123

是的。如果不存在这个地址就会新建，如果存在的话他会读取已经存在的超图，再做插入。

Sep 09 '25 15:09 LHRLAB

非常非常非常感谢您的回复！我观察到NQ的原始数据并没有context这个条目，我想请教一下咱们是根据2018 wiki-dump retrieve得到的这些context吗？不知道是否可以了解一下详细的retrieve过程吗？

Sep 11 '25 17:09 FanDongzhe123

是的，对于没有corpus的数据集，我们用普通的检索找到了top5的chunk，然后组成知识库。

Sep 11 '25 17:09 LHRLAB

你好，我发现有的问题在语料库中并没有答案，这是正常的吗？还是我构建的时候出现了问题呢？

Oct 29 '25 12:10 Hua-Wu-Que-Code