1579890249
1579890249
感谢你的回复,我需要的是多个训练任务并行的,npu-smi info 里面肯定是有另一个训练任务正在执行的,只训练一个是没有问题的。MASTER_PORT是每个训练任务都会有一个端口的 循环里面有+的操作 无言 ***@***.***
启动了不同HCCL_IF_BASE_PORT环境变量还是报上面的那个错误
请问现在还没支持吗?
是重新打开位置订阅的时候出现的 一开始我以为是订阅时间间隔设备的过短导致设备响应不过来导致的。 但是我把时间间隔调长之后还是出现这个可能是哪些原因啊
请问2.6.9版本还在维护吗 2.6.9我也出现了这个问题 我以为是zlm的问题 然后夏总说是 wvp调度的问题 https://github.com/ZLMediaKit/ZLMediaKit/issues/3623
蹲一下,流式生成中间卡顿问题