Nebuladream
Nebuladream
> Sorry, I just trained the model on 1 GPU. The results you posted are interesting. I think it may be caused by the triplet loss with hard exampling mining....
您好,最近我们在做caption相关的工作,希望能够基于ai challenger的这个数据集做一些工作。但是数据集的官方下载通道被关闭了,不知道您是否愿意分享一下给我们。
I train the model from coco pretrained weights, finding mrcnn_mask_loss branch may not convergence……the loss like this , do you know why?
@zoukai214 I think the author modified the json files. in main.py line:103 m = np.zeros([human_nums, annotations['width'], annotations['height'], 14]) in numpy array, it should be m = np.zeros([human_nums, annotations['height'], annotations['width'], 14])...
是mem usage,1080P 8个worker的话基本上几千个step就oom了。把epoch变小,worker数量降低,每个epoch结束后做下gc清理能基本维持mem不爆掉。另外,这个代码的分布式有性能问题,scale up后迭代速度会随卡数增加而变差。
应该是多节点通信的性能问题,节点数double,单个step的时间也会增长一倍,scaleup基本上不可用。
实测8台机器是极限
分布式这块的code你们有update过么?测试的是1.0版本的,360P 32帧视频 8台7sec,16台~14sec。 集群没问题的,megatron重新实现了下就好了。
colossalai你们推荐哪个版本啊,我们可以update下再测测
> 应该有,我记得 colossalai 版本更新后就更适配了。你们 batch size 是多大呀,8台 7s -> 16台 14s 感觉慢的太多了,我们目前没有观察到这样的现象。 单卡bs=1,8gpu/台