Yufei He comments

Results 4 comments of


                                            Yufei He

关于remask token的问题

感谢关注。是的，你的发现是对的，我们确实在GraphMAE2中尝试了learnable remask token。当时的观察是性能上差距不大，你也可以具体试一试。

torch.cuda.OutOfMemoryError: CUDA out of memory

感谢关注。论文中的结果我们使用了80G的A100进行实验，但大部分实验应该可以在24G的显存下正常运行。我不太确定11G的显存能否运行，可以尝试调低batchsize，或者把模型变小试一试。

> 在之前的Issue中讨论了self._momentum参数的问题 def ema_update(self): def update(student, teacher): with torch.no_grad(): # m = momentum_schedule[it] # momentum parameter m = self._momentum for param_q, param_k in zip(student.parameters(), teacher.parameters()): param_k.data.mul_(m).add_((1 - m) * param_q.detach().data)...

仍对ema_update函数存在疑问

> 感谢您的回复！我尝试分别使用两种策略验证GraphMAE2对于节点分类的影响，当只应用多视图随机重掩码解码策略时，loss在短短的几个epoch后归零，这是否意味着发生了特征坍缩？当完整的应用GraphMAE2后，假阳性有明显的降低，我能否这样理解：GraphMAE的固定的重掩码策略导致encoder过多的关注哪些具有高辨识性的节点特征从而导致对于具有微小变化的节点特征不敏感，多视图随机重掩码策略意在将encoder的均匀地分配给不同的节点特征，但导致了过拟合的问题，因而采用潜在表征预测策略保持online encoder和target encoder的表示相似性，来避免过拟合导致的梯度消失问题（特征坍缩）。我不太了解你使用的具体数据，但单独使用GraphMAE2中的reconstruction loss应该可以预期一个和GraphMAE差不多的合理结果。具体可以参考下paper里的ablation studies中GraphMAE2中的两个decoding部分对结果的影响。如果出现loss归零的情况，我的建议是首先尝试调整一下mask/remask ratio等超参数。以及节点特征是否具有某些特殊的性质。