Sam comments

Results 7 comments of

Sam

分布式训练 Line Loss异常

@alinamimi 您好，xent_loss在单机和分布式训练时是一样的，我觉得这并不能引起loss的异常，您觉得呢

分布式训练 Line Loss异常

@alinamimi @yangsiran 您好，我对xent_loss设置成True和False都进行设置了，但是结果还是LOSS异常的大，在batch_size=160000的情况下，几个step，loss就变成nan了，可以帮忙分析一下到底是什么原因么？？

分布式训练 Line Loss异常

目前还没找到原因，急需大神指点一波，我的微信，18610365704，可以交流一下

您好，在进行完分布式训练后，导出模型时报出以下错误，请问一下该如何解决啊

您好，我不太明白这个网络是什么意思，可以在详细的解释一下么，我在同一台机器上进行分布式测试时，模型训练完，在hdfs上加载就会报上面的错，但是把模型get到本地久没问题，您能再帮忙分析一下什么原因么？非常感谢

您好，在进行完分布式训练后，导出模型时报出以下错误，请问一下该如何解决啊

@alinamimi @yangsiran @renyi533 @wenshiyang 您好，我重新进行了测试，发现了一个问题，我在单个节点上作分布式训练，我的实例机内存配置如下： [ec2-user@ip-172-40-57-160 ~]$ free -h -m total used free shared buff/cache available Mem: 123G 3.9G 104G 772K 15G 118G Swap: 0B 0B 0B 进行了以下两组试验： 1....

您好，在进行完分布式训练后，导出模型时报出以下错误，请问一下该如何解决啊

模型较大，会导致checkpoint 不完整，是么，因为我刚才进行测试，在8428196个节点上，把维度降到32就可以正常导出，

您好，在进行完分布式训练后，导出模型时报出以下错误，请问一下该如何解决啊

好的，感谢您的解答