PathCon
PathCon copied to clipboard
baseline的实现细节
您好,十分欣赏您及其团队所提出来的PathCon模型。由于我自己实验的需要,关于TransE, DistMult等基于Embedding的baseline方法,有些实现细节需要向您请教:
- APPENDIX D中给出了baseline的代码的链接,请问超参的话是直接采用它们之前所采用的最佳超参吗?
- 之前的方法在训练的时候是对头实体和尾实体进行破坏进行负采样,而就像4.1 Evaluation Protocol中提到的一样,本文是对关系进行预测,所以是对关系进行破坏进行负采样。那这样的话,负采样率这个超参还是沿用之前代码链接的负采样率吗?如果不是的话,想了解一下本文baseline实现时的负采样率。
- 由公式16可知,本文是通过交叉熵,将预测关系转换为一个分类的问题,所以按照我的理解PathCon模型是没有进行负采样的(当然也可能理解错了)。我好奇baseline中的loss是直接沿用之前代码各自的实现,还是也采用PathCon这种方式的实现,即过完打分函数之后直接softmax再交叉熵(我的判断是直接采用的之前的实现,不然也不会提到对关系进行负采样)。因为基于Ruffinelli et al.,我觉得不同loss的选择对模型的结果影响很大。不知您是否有做相关的实验。
(当然了,如果您愿意开源baseline的实验细节那是最好不过的了
- 很好奇PathCon为什么没有像之前知识图谱链接预测的工作一样,给出头(尾)实体和关系,来预测尾(头)实体,而是给出两个实体预测它们之间的关系。我目前的推测是因为模型对关系上下文进行传递并结合两节点之间路径表示这种范式导致,所以直接给出头实体和尾实体预测关系更为直接和方便。但毕竟之前的论文都是采用链接预测这种方式,不知您是否有将PathCon在链接预测这种实验条件下进行实验?或者对于将PathCon用于链接预测的loss的构建有什么好的建议吗?
您好,感谢您对我们工作的兴趣!您的问题回答如下:
- 是采用它们的最佳超参数;
- 是采用之前代码的负采样率;
- 我们没有负采样。baseline中的loss是采用之前代码的实现,我们没有对baseline设计其它的loss;
- 是的,因为我们的problem formulation,所以给定h和t去预测r会更合适。理论上这个方法也可以去做head/tail prediction,这个在paper里的footnote有提到,唯一的问题在于会比较耗时,因为给定h和r,我们要去计算h和所有其它entity的path(当然其实也可以预先计算好所有entity pair的path)。
感谢您的回复 :)