openmlsys-zh icon indicating copy to clipboard operation
openmlsys-zh copied to clipboard

[内容补充与拓展]集合通讯

Open liaopeiyuan opened this issue 3 years ago • 6 comments

  • [ ] 机内网络(intra-node)和机间网络(inter-node)细节:RDMA, RoCE, Infiniband, NVLink, AWS EFA 之间的联系
  • [ ] Allreduce 算法细节: tree, ring, CollNet
  • [ ] 其他常见的 Collective operations: AllGather, Reduce-Scatter, Broadcast
  • [ ] 带宽的计算方式
  • [ ] 实现集合通讯的库(gloo, nccl, mpi) 与框架(BytePS, Torch Distributed, Horovod, KungFu, TensorFlow distributed) 和调用细节

liaopeiyuan avatar Apr 03 '22 02:04 liaopeiyuan

可以的,这估计得单独放一个通信的章节。点对点通信库,集合通讯库,通信优化算法,通信backend这些~

eedalong avatar Apr 03 '22 03:04 eedalong

这块要写的话我也可以参与写一下。对这块最近研究比较多 @luomai

eedalong avatar Apr 03 '22 03:04 eedalong

@eedalong 你准备写tensorpipe?

luomai avatar Apr 03 '22 14:04 luomai

@liaopeiyuan 这个计划很好哈。

luomai avatar Apr 03 '22 14:04 luomai

@eedalong 你准备写tensorpipe?

tensorpipe可能不太会写,感觉tensorpipe从技术上没有很多的新意可以写主要是,更多是软件架构设计层面比较全

eedalong avatar Apr 04 '22 02:04 eedalong

@liaopeiyuan 和我讨论过了。他有一个很好的拓展。很快就会PR进来。

luomai avatar Apr 25 '22 16:04 luomai