Zeng Zitao

Results 6 comments of Zeng Zitao

> 从上面给出的log来看,throughput_train : 487.252 seq/s似乎是单卡的速度,说明并没有成功开启2机16卡,正常开启的话速度在5000+ seq/s;另外从输出: > > ```shell > An MPI communication peer process has unexpectedly disconnected. This > usually indicates a failure in the peer process (e.g., a...

以下为正常训练一次的日志主要内容: ``` [1,6]:INFO:tensorflow:Using config: {'_model_dir': '/results/tf_bert_pretraining_adam_base_fp16_gbs512_210202010609', '_tf_random_seed': None, '_save_summary_steps': None, '_save_checkpoints_steps': None, '_save_checkpoints_secs': None, '_session_config': gpu_options { [1,6]: visible_device_list: "6" [1,6]:} [1,6]:graph_options { [1,6]: optimizer_options { [1,6]: global_jit_level: ON_1 [1,6]:...

> 您好,看412seq/s的速度,和我们单机单卡(with fp16 & xla)的速度类似,确认是多卡都跑起来了吗?还有,我们跑的是bert base的pretraing,请确保网络是bert base的配置(检查下是不是跑成了bert large?) 1.多卡肯定是启动了的: | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | 0 207278 C python3 15289MiB |...

> 方便的话,您把脚本/代码/包括模型配置压缩个zip文件,这边帮您看下?可以放这个issue下或发到邮箱[[email protected]](mailto:[email protected]) 可能比较难,我得先请示一下。想再请问一下,有什么方法能够确认我起的这16张卡,是在并行跑,而非起了16张卡串行再跑么?现在我很怕,16张卡都起了,结果没并行起来而是串行在跑,不过我用horovod起的,感觉应该是并行在跑吧?

同问,文档当中说的是三类算子构成了元算子,但是现阶段具体的元算子是哪些 还不太清楚,还望赐教,谢谢!

> [@zzt941006](https://github.com/zzt941006) 您好,请问您在微调Qwen2-VL-2B微调时有遇到报错吗?我在运行**从数据下载到生成CSV**时得到如下报错,环境是使用教程中给的autodl中的镜像 > > `FileNotFoundError: https://xingchen-data.oss-cn-zhangjiakou.aliyuncs.com/coco/2014/train2014/COCO_train2014_000000011195.jpg` 这个错误咋看上去是镜像里这个路径下面没有这张图片,是download图片的时候失败了么,可以排查一下我感觉,先确保数据真能下载下来吧~