openmlsys-zh
openmlsys-zh copied to clipboard
[内容补充与拓展]集合通讯
- [ ] 机内网络(intra-node)和机间网络(inter-node)细节:RDMA, RoCE, Infiniband, NVLink, AWS EFA 之间的联系
- [ ] Allreduce 算法细节: tree, ring, CollNet
- [ ] 其他常见的 Collective operations: AllGather, Reduce-Scatter, Broadcast
- [ ] 带宽的计算方式
- [ ] 实现集合通讯的库(gloo, nccl, mpi) 与框架(BytePS, Torch Distributed, Horovod, KungFu, TensorFlow distributed) 和调用细节
可以的,这估计得单独放一个通信的章节。点对点通信库,集合通讯库,通信优化算法,通信backend这些~
这块要写的话我也可以参与写一下。对这块最近研究比较多 @luomai
@eedalong 你准备写tensorpipe?
@liaopeiyuan 这个计划很好哈。
@eedalong 你准备写tensorpipe?
tensorpipe可能不太会写,感觉tensorpipe从技术上没有很多的新意可以写主要是,更多是软件架构设计层面比较全
@liaopeiyuan 和我讨论过了。他有一个很好的拓展。很快就会PR进来。