cmcamdy
cmcamdy
请问有没有遇到过这种情况 训练到一半程序突然不跑了,也不报错,也没有其他log,就一直死在那里,GPU内存一直占用但是利用率为0,我测试过多次,发现可能停在不同的地方,如: Epoch [1][5750/12805] Epoch [1][4050/6403] Epoch [1][600/4269] 但毫无例外都在epoch1停掉了(还在跑但是卡在某个地方了,因为CPU占用也没有了),请问有人知道这是怎么回事吗
你好,我在test输出数据的时候print了predbbox和score,发现bbox的数据集中在第二个bbox中: -> print(scores[index]) (Pdb) r [9.9988842e-01 6.6253820e-06 5.9292459e-05 4.0550061e-05 5.0738868e-06] [ 0. 0. 0. 0. 0. 0. 0. 0. 43.752 96.91591 482.25037 96.84546 482.31024 469.7978 43.811916 469.86823 0. 0. 0....
### PR Category Others ### PR Types Others ### Description 需要为飞桨扩充 API paddle.distribution.chi2 和 paddle.distribution.LKJCholesky 1.实现分布chi2 2.实现分布LKJCholesky,支持sample_method参数,onion/cvine可选
### PR Category Execute Infrastructure ### PR Types Improvements ### Description Migrate RandomHorizontalFlip、RandomVerticalFlip、RandomErasing into pir 1.将RandomHorizontalFlip, RandomVerticalFlip, RandomErasing迁移到pir中 2.修复RandomResizedCrop在pir模式下_static_get_param函数无法直接进行比值问题 3.完善test_transforms_static.py的测试 ### Related links - #62618
### PR Category Others ### PR Types Bug fixes ### Description - **请不要合入** - 相关PR:https://github.com/PaddlePaddle/Paddle/pull/65548 - 暂时性修复在超大Batch下,因为使用L3Cache导致Output Tensor指针不一致的问题, - 原始问题:  - 修复后: 
### 描述 1. 在Develop分支下的XPU编译中,会出现zlib找不到的问题 - 相关ISSUE:https://github.com/PaddlePaddle/Paddle/issues/66180 - 解决方法参考:https://stackoverflow.com/questions/22337896/how-to-fix-undefined-references-to-inflate-deflate-functions 2. 在官方的XPU镜像中是不存在CUDA驱动的,因此需要删除project中project(cpp_inference_demo CXX C CUDA)中的CUDA,才能使得run.sh可以正确运行
### PR devices Arm ### PR types Bug fixes ### PR changes OP ### Description 修复arm cpu上的grid sample算子