OpenDiT
OpenDiT copied to clipboard
性能问题
感谢你们出色的工作!
我有一个小问题:
请问这张图的性能区别主要受益于什么机制呢(图中DIT的attention实现是什么,kernel fusion是否采用等),注意到单卡也能快两倍,所以速度变快主要可能不是来源于序列并行?有无消融实验表面主要的性能提升来自什么机制呢
https://github.com/NUS-HPC-AI-Lab/OpenDiT/blob/master/figure/end2end.png
the speedup for training comes from less memory cost and larger batch size