Stephen Wu
Stephen Wu
@ShangJP 请问这个问题解决了吗? 分布式情况下 单server单worker是正常的,多worker有监督正常;多worker无监督训练loss就爆炸了。。 @alinamimi 之前你们可有测试大数据下分布式的无监督训练效果? loss这种情况大概什么原因呢?烦请提供一个排查的思路,谢谢
> 我们业务有在大数据下做无监督训练,用GraphSage比较多,训练过程是正常的,也能收敛。LINE比较少用。loss一般我们用xent效果比较好,需要调一下学习率等参数 多谢
> 这个问题确实存在,可以麻烦官方在大数据集(10亿+变量)上测测,而且save_emb方法,内存占用极大,当前增量输出数据 这个问题就搞定了。感觉官方这块儿代码也改改。 @lixusign @ShangJP @siallen @alinamimi 请问大数据集下save embedding 加载模型失败的问题解决了吗?
> 解决了 ,看我提交的那个pull request 即可。 自己把代码黏贴过去就好用就好 我试了,还是不行;你的pr逻辑是将save embedding改为增量,但我的问题和题主的问题一样,模型restore的时候失败,提示模型不匹配,但dump的模型参数check过没有问题;错误信息如下 InvalidArgumentError (see above for traceback): Restoring from checkpoint failed. This is most likely due to a mismatch between the current graph and...
> 我在这方面没遇到相似问题,如果不是模型有调整,是不是save的时候的tf版本或者某些库和train的版本不同导致的。 只和图数据量有关,减少图规模就ok。。
> MRR(Mean reciprocal rank)是一个国际上通用的对搜索算法进行评价的机制,即第一个结果匹配,分数为1,第二个匹配分数为0.5,第n个匹配分数为1/n,如果没有匹配的句子分数为0。最终的分数为所有得分之和 > 无监督学习的目标就是正例要尽可能排在负例的前面,所以mrr是一个很好的选择 这里换成auc是不是类似?