OpenRLHF
OpenRLHF copied to clipboard
ERROR - An error occurred during score calculation: Task was killed due to the node running low on memory.
请问我在用Ray多机多卡跑训练的时候出现了以下的问题,请问有哪些解决办法呢
已经参考网上解决办法将RAY_DEBUG_DISABLE_MEMORY_MONITOR=1了,但是仍然无法解决。目前节点最大内存是1000G这个是无法改变的,请问有哪些可以优化的方法呢
@Siri-2001 后面有找到解决办法吗