DLPerf
DLPerf copied to clipboard
DeepLearning Framework Performance Profiling Toolkit
update test result fix formatting issues
将每次生成的 tmp_run.sh 文件分发到各个节点。以便后续多机训练
天枢大规模分布式训练评测报告1. 简介本报告比较了多个深度学习框架在多个经典的深度学习模型训练任务上分布式训练的吞吐率、加速比、硬件使用率(如:GPU、CPU、内存、硬盘、网络等)。测试均采用相同的数据集、相同的硬件环境和算法,仅比较各个框架之间的速度差异。结果表明(期望结果):分布式性能:在20台以上虚机或服务器组合时,线性加速比达到80%以上,与业界已有框架相比有突出的优势; 资源利用率:大规模分布式训练计算时,在各大典型任务上训练的硬件资源平均利用率不低于80%。 2. 背景介绍2.1 评测平台本次评测基于基于之江天枢平台,以下简要介绍平台使用流程:1)平台地址:zjlab.dubhe.club测试账号(详询俞再亮)2)选择资源总量(可扩容)当前可支持 1机1卡 -> 4机32卡单节点详细配置(单节点上限 8 卡)Tesla V100S-PCIE-32GB x 8Intel(R) Xeon(R) Gold 6248R CPU @ 3.00GHzMemory 754GUbuntu 18.04.5 LTS (GNU/Linux 4.4.0-142-generic x86_64)CUDA Version: 11.1, Driver Version: 460.73.01nvidia-smi topo...
## Filtered Result `median value` | case | memory (MiB) | lantency (ms) | throuthput(sample/sec) | | --------------------------------------------------------- | ------------ | ------------- | ---------------------- | | 1n1g_dp1_mp1_pp1_mbs16_gbs16_na1_l24_hs1536_nah24_sl2048 | 30008 |...
在各深度学习框架的评测报告中,没有resnet50在ImageNet上的准确率,没有BERT在GLUE leaderboard上的分数。在实际应用中,重要的不只是效率还有预测效果。没有报告这些重要模型在重要benchmark上的准确率等指标,别人很难确定使用oneflow框架能不能复现出经典模型的效果。