Corpus构建
非常棒的工作! 关于Graph-R1, 我还有如下问题想请教:请问每个数据集的corpus是如何构建的?是基于sample出来的 train&test set的content的构建的还是基于原始数据集的content?另外如果我想使用论文中未用到的数据集来训练,该如何构建corpus呢?
感谢您的关注!在 Graph-R1 中,每个数据集的 corpus 是基于 sample 出来的 train 和 test 集合的知识组合构建的。如果您想在论文未涉及的新数据集上进行训练,也完全可以复用相同流程:只需将新数据集中的内容组织成类似的格式,直接更改 corpus 文件中的字符串即可完成构建。
感谢您的回复!我还想请教一下,如果我想额外从原始数据集中sample出一些train/test data point,例如在HotpotQA中再额外sample 1000个节点 (共6120节点)来训练,我是否需要重新构建KG?或者说我是否可以把根据新questions构建一个hypergraph并和之前的graph合并在一起?
可以合并的,只需要设置好expr为之前的超图,再做insert新的corpus就会插进去。
再次感谢您的回复!我的理解是: 我在expr中保存好之前的超图,然后再在新的corpus上运行script_build.py就可以insert了对吗?
是的。如果不存在这个地址就会新建,如果存在的话他会读取已经存在的超图,再做插入。
非常非常非常感谢您的回复!我观察到NQ的原始数据并没有context这个条目,我想请教一下咱们是根据2018 wiki-dump retrieve得到的这些context吗?不知道是否可以了解一下详细的retrieve过程吗?
是的,对于没有corpus的数据集,我们用普通的检索找到了top5的chunk,然后组成知识库。
你好,我发现有的问题在语料库中并没有答案,这是正常的吗?还是我构建的时候出现了问题呢?