Sam
Sam
@alinamimi 您好,xent_loss在单机和分布式训练时是一样的,我觉得这并不能引起loss的异常,您觉得呢
@alinamimi @yangsiran 您好,我对xent_loss设置成True和False都进行设置了,但是结果还是LOSS异常的大,在batch_size=160000的情况下,几个step,loss就变成nan了,可以帮忙分析一下到底是什么原因么??
目前还没找到原因,急需大神指点一波,我的微信,18610365704,可以交流一下
您好,我不太明白这个网络是什么意思,可以在详细的解释一下么,我在同一台机器上进行分布式测试时,模型训练完,在hdfs上加载就会报上面的错,但是把模型get到本地久没问题,您能再帮忙分析一下什么原因么?非常感谢
@alinamimi @yangsiran @renyi533 @wenshiyang 您好,我重新进行了测试,发现了一个问题,我在单个节点上作分布式训练, 我的实例机内存配置如下: [ec2-user@ip-172-40-57-160 ~]$ free -h -m total used free shared buff/cache available Mem: 123G 3.9G 104G 772K 15G 118G Swap: 0B 0B 0B 进行了以下两组试验: 1....
模型较大,会导致checkpoint 不完整,是么,因为我刚才进行测试,在8428196个节点上,把维度降到32就可以正常导出,
好的,感谢您的解答