GATNE icon indicating copy to clipboard operation
GATNE copied to clipboard

关于相似度的问题

Open Aliang-CN opened this issue 5 years ago • 7 comments

作者: 您好!非常感谢你的开源工作,我在我的数据集上实现了这个模型,不过有个小疑问想和你探讨一下,我在计算两两item之间的相似度的时候,发现相似度几乎是0.99以上,这种现象正常吗?我之前好像也看到有人提出类似的问题。以下是我取其中某一部分数据top10 image

Aliang-CN avatar Sep 07 '20 08:09 Aliang-CN

这个问题的引起是否和base_embedding在做随机游走或者Edge_Embedding在抽邻居的时候没考虑权重有关?导致一些相似度很低的item被抽到的概率和相似度很高的item被抽到的概率一样。

Aliang-CN avatar Sep 07 '20 08:09 Aliang-CN

Hi @Aliang-CN,

感谢对我们论文的关注!这个确实是一个非常有意思的现象,但是我这边目前也给不出合理的解释,值得进一步的探究。

cenyk1230 avatar Nov 26 '20 02:11 cenyk1230

Hi @Aliang-CN,

感谢对我们论文的关注!这个确实是一个非常有意思的现象,但是我这边目前也给不出合理的解释,值得进一步的探究。

我对比了刚初始化和每个epoch出来的模型,发现了一个很奇怪的现象,随着epoch的增加,所有的点都会往一个点上聚合。

Aliang-CN avatar Nov 30 '20 03:11 Aliang-CN

0efd7b52618b19ad055e52404c84140 pre是刚初始化的模型

Aliang-CN avatar Nov 30 '20 03:11 Aliang-CN

@cenyk1230 您好,想咨询一个问题,在阿里生产环境上,增加user节点后,游走的次数大概是多少了。我在我的生产上,增加user节点,游走10遍,效果很差。

Aliang-CN avatar Dec 21 '20 09:12 Aliang-CN

同感啊同感啊,训练出来的item embedding都非常相似!!完成没有区分度,怎么办!!

DrQinZL avatar Jun 30 '22 12:06 DrQinZL

这个问题的引起是否和base_embedding在做随机游走或者Edge_Embedding在抽邻居的时候没考虑权重有关?导致一些相似度很低的item被抽到的概率和相似度很高的item被抽到的概率一样。

赞同,游走没有像node2vec那样加权重,edge embedding聚合也不加权重,最后所有item embedding越来越像

DrQinZL avatar Jun 30 '22 12:06 DrQinZL