Luyang comments

Results 26 comments of


                                            Luyang

Which version of python and CUDA is used ?

python版本无所谓，3.6/3.7都行，关键是cuda和pytorch版本（我是cuda10/cuda10.1 +Ubuntu18.04的环境）刚开始conda装的torch-0.4.1 ＋cuda9/cuda92/cudatoolkit10都不行，训练时报错： ``` # RuntimeError: cuda runtime error (11) : invalid argument at # /opt/conda/conda-bld/pytorch_1535493744281/work/aten/src/THC/THCGeneral.cpp:663 ``` 后来把pytorch版本换了一下就可以正常运行了： `conda install pytorch==1.0.1 torchvision==0.2.2 cudatoolkit=10.0` 【仅供参考】

YoloV3 saving weights

Me too,good question!When I run train.py to train yolo network,once epoch finished,it raise error like: Traceback (most recent call last): File "train.py", line 95, in model.save_weights(str(epoch) + "_yolov3_weight.h5") File ".../anaconda3/envs/tf-2.1/lib/python3.7/site-packages/tensorflow_core/python/keras/engine/network.py",...

paddle fleet 没有分布式预测的例子嘛？

同求，resent的分布式多级多卡demo

Dev add dalle2

> `nsys profile --stats=true -o dalle2 python3 test.py ` 利用nsight system工具打开上述结果，发现ComputeVarUsingWelfordWrapper耗时占比非常大，这个ComputeVarUsingWelfordWrapper具体是指什么操作呢，另外如何避免/减少它的开销？ py: 3.8 oneflow: 0.8.0 ![image](https://user-images.githubusercontent.com/109642856/184850035-cb11942e-cbef-41fa-bae9-55b91f1c06d8.png) 这个`ComputeVarUsingWelfordWrapper`就是var op的kernel实现，这个kernel实现的效率有问题，暂时还没有修复。如果是网络中用到了`nn.GroupNorm`的话，可以先按照这个pr：https://github.com/Oneflow-Inc/oneflow/pull/8905 中，修改一下GroupNorm中var的实现，可以绕过这个var kernel的问题，大大加速

Dev paddle plsc arcface

> 测试的结论是？把oneflow 和 plsc 的结果放在一起看看？好的，我在readme中增加一栏对比说明

Dev paddle plsc arcface

# Arcface-rn50测试结果对比及说明我们基于同样的硬件环境、同样的网络及数据集，在单机单卡～4机32卡的集群中，对不同框架([paddle-plsc](https://github.com/Oneflow-Inc/DLPerf/blob/dev_paddle_plsc_arcface/PaddlePaddle/PLSC/README.md)及[oneflow](https://github.com/Oneflow-Inc/DLPerf/blob/dev_test_insightface_r50/OneFlow/Recognition/insightface/rn50/README.md))进行了测评，对比框架在大规模人脸模型(模型并行)训练时的吞吐率、加速比等主要性能指标。 ## 测试环境为保证能更好的测试框架本身的性能好坏，做到公平公正，本次测评所有的测试均在相同的物理集群中测试，使用相同的软件环境等。测试环境共有4台机器，每台机器配置了8张V100 GPU显卡。（每台机器配置与NVIDA DGX-1接近）每台机器具体的硬件和软件配置描述如下： - Tesla V100-SXM2-16GB x 8 - InfiniBand 100 Gb/sec (4X EDR)， Mellanox Technologies MT27700 Family - Intel(R) Xeon(R) Gold 5118 CPU @...

Dev paddle plsc arcface

> OK. 辛苦了。韩广云测试的环境是10Gbps的带宽，和我们配置不一样。恩，上面贴的数据都是在leinao相同环境上测的

运行bert for pytorch报错Out of memory问题

你好，首先请确保GPU环境是：GPU：Tesla V100-SXM2-16GB x 8，其次可能的原因有docker运行时未设定足够大小的内存，如： `--shm-size=16g`

gluon-mxnet-bert多机速度慢问题

训练过程中还发现： - 1.通过horovodrun时，数据加载时会48core占满100%，正式训练开始不会满(差不多是能有48个core都占用不到50%) - 2.mpirun -bind-to none时效果同上；mpirun -bind-to core，这种方式可以限制进程数，使得2机数据加载和训练时只会占用16个core，不过速度是比占满时慢一些的（肉眼估算大约30%） - 3.horovodrun时1组7次训练几乎只有1~2次能正常跑完、mpirun就比较稳基本不会报异常，具体原因未能确定（可能是horovodrun不太稳定或者遭遇端口通信异常） mpirun参数可见：https://www.open-mpi.org/doc/current/man1/mpirun.1.php

gluon-mxnet-bert多机速度慢问题

> > * 通过mpi运行时，可添加参数-x NCCL_DEBUG=INFO查看nccl输出 > > > > ```shell > > mpirun -oversubscribe -np ${gpu_num} -H ${node_ip} \ > > -bind-to none -map-by numa \ > > -x NCCL_DEBUG=INFO...