训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述:
-
通过https://github.com/PaddlePaddle/PaddleVideo/tree/develop/applications/PPHuman这个链接的下载数据,已经转换好的npy和pkl数据文件。

-
开启训练过程(windows系统,cuda10.2 cudnn7.6.5 paddlepaddle2.3),python main.py --validate -c applications/PPHuman/configs/stgcn_pphuman.yaml
-
训练中断如图所示:

配置文件里有设置 max_iters 参数吗
有,设置为50。
1021768023 @.***
------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleVideo" @.>; 发送时间: 2022年5月17日(星期二) 下午5:34 @.>; @.@.>; 主题: Re: [PaddlePaddle/PaddleVideo] 训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述: (Issue #431)
配置文件里有设置 max_iters 参数吗
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
把max_iter参数所在行注释了吧,它的作用是:迭代max_iter个iter后就退出程序。
log_interval(打印间隔)如果设置的是50的话,看起来就是只输出一次日志就停了。
您好,我在我的配置文件里并没有发现max_iter参数项,PaddleVideo-develop\configs\recognition\stgcn\stgcn_fsd.yaml
1021768023 @.***
------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleVideo" @.>; 发送时间: 2022年5月17日(星期二) 晚上8:43 @.>; @.@.>; 主题: Re: [PaddlePaddle/PaddleVideo] 训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述: (Issue #431)
把max_iter参数所在行注释了吧,它的作用是:迭代max_iter个iter后就退出程序。 log_interval(打印间隔)如果设置的是50的话,看起来就是只输出一次日志就停了。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
log_interval设为1,看下几个iter后停了呢
这个与batch_size有关,当batch_size=8时,step在360中断,当batch_size=16时,step在180中断。
1021768023 @.***
------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleVideo" @.>; 发送时间: 2022年5月18日(星期三) 上午10:10 @.>; @.@.>; 主题: Re: [PaddlePaddle/PaddleVideo] 训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述: (Issue #431)
log_interval设为1,看下几个iter后停了呢
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
方便的话可以把配置文件贴出来看一下~
您好,这是我的配置文件,所在路径为PPVideo工程目录中:/applications/PPHuman/configs/stgcn_pphuman.yaml
1021768023 @.***
------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleVideo" @.>; 发送时间: 2022年5月20日(星期五) 中午11:07 @.>; @.@.>; 主题: Re: [PaddlePaddle/PaddleVideo] 训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述: (Issue #431)
方便的话可以把配置文件贴出来看一下~
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
换了几个数据集,都是在同样的step中断,应该和数据无关,但是我的显存也没爆。
1021768023 @.***
------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleVideo" @.>; 发送时间: 2022年5月20日(星期五) 中午11:07 @.>; @.@.>; 主题: Re: [PaddlePaddle/PaddleVideo] 训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述: (Issue #431)
方便的话可以把配置文件贴出来看一下~
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
今天我整个将ppvideo中train.py调试了一遍,一个epoch需要182个step,从step0到step181都能正常运行,当对epoch0做eval时中断,断点直接跳过(原因未知)。
1021768023 @.***
------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleVideo" @.>; 发送时间: 2022年5月20日(星期五) 中午11:07 @.>; @.@.>; 主题: Re: [PaddlePaddle/PaddleVideo] 训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述: (Issue #431)
方便的话可以把配置文件贴出来看一下~
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
补充:我用的是windows10的系统
1021768023 @.***
------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleVideo" @.>; 发送时间: 2022年5月20日(星期五) 中午11:07 @.>; @.@.>; 主题: Re: [PaddlePaddle/PaddleVideo] 训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述: (Issue #431)
方便的话可以把配置文件贴出来看一下~
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
- 在配置文件里,把num_workers设置为0,看下能否打印出日志呢
- 检查下val数据集路径是否正确呢