Tao-Cute

Results 2 comments of Tao-Cute

> @FBEMPSS Can you help me with the code snippet that converts the train.bcf to images Did u solve thie problem? I want to convert .bcf format to images too

> > 此错误的后续:当我使用较大的本地数据集时,保存检查点时再次收到错误。您对此有什么想法吗?谢谢 > > 运行时错误:NCCL 通信器在等级 0 上中止。失败的原始原因是:[等级 0] 看门狗捕获集体操作超时:WorkNCCL(SeqNum=29544, OpType=_ALLGATHER_BASE, Timeout(ms)=600000) 在超时之前运行了 601762 毫秒。.... ....composer.core.engine:关闭后回调 RuntimeEstimator [E ProcessGroupNCCL.cpp:455] 某些 NCCL 操作失败或超时。由于 CUDA 内核的异步特性,后续 GPU 操作可能会在损坏/不完整的数据上运行。[E ProcessGroupNCCL.cpp:460] 为了避免数据不一致,我们将取消整个流程。错误:composer.cli.launcher:全局排名 0...