Graph-R1 icon indicating copy to clipboard operation
Graph-R1 copied to clipboard

Corpus构建

Open FanDongzhe123 opened this issue 4 months ago • 8 comments

非常棒的工作! 关于Graph-R1, 我还有如下问题想请教:请问每个数据集的corpus是如何构建的?是基于sample出来的 train&test set的content的构建的还是基于原始数据集的content?另外如果我想使用论文中未用到的数据集来训练,该如何构建corpus呢?

FanDongzhe123 avatar Sep 09 '25 11:09 FanDongzhe123

感谢您的关注!在 Graph-R1 中,每个数据集的 corpus 是基于 sample 出来的 train 和 test 集合的知识组合构建的。如果您想在论文未涉及的新数据集上进行训练,也完全可以复用相同流程:只需将新数据集中的内容组织成类似的格式,直接更改 corpus 文件中的字符串即可完成构建。

LHRLAB avatar Sep 09 '25 14:09 LHRLAB

感谢您的回复!我还想请教一下,如果我想额外从原始数据集中sample出一些train/test data point,例如在HotpotQA中再额外sample 1000个节点 (共6120节点)来训练,我是否需要重新构建KG?或者说我是否可以把根据新questions构建一个hypergraph并和之前的graph合并在一起?

FanDongzhe123 avatar Sep 09 '25 14:09 FanDongzhe123

可以合并的,只需要设置好expr为之前的超图,再做insert新的corpus就会插进去。

LHRLAB avatar Sep 09 '25 15:09 LHRLAB

再次感谢您的回复!我的理解是: 我在expr中保存好之前的超图,然后再在新的corpus上运行script_build.py就可以insert了对吗?

FanDongzhe123 avatar Sep 09 '25 15:09 FanDongzhe123

是的。如果不存在这个地址就会新建,如果存在的话他会读取已经存在的超图,再做插入。

LHRLAB avatar Sep 09 '25 15:09 LHRLAB

非常非常非常感谢您的回复!我观察到NQ的原始数据并没有context这个条目,我想请教一下咱们是根据2018 wiki-dump retrieve得到的这些context吗?不知道是否可以了解一下详细的retrieve过程吗?

FanDongzhe123 avatar Sep 11 '25 17:09 FanDongzhe123

是的,对于没有corpus的数据集,我们用普通的检索找到了top5的chunk,然后组成知识库。

LHRLAB avatar Sep 11 '25 17:09 LHRLAB

你好,我发现有的问题在语料库中并没有答案,这是正常的吗?还是我构建的时候出现了问题呢?

Hua-Wu-Que-Code avatar Oct 29 '25 12:10 Hua-Wu-Que-Code