PaddleVideo icon indicating copy to clipboard operation
PaddleVideo copied to clipboard

训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述:

Open tuodi opened this issue 3 years ago • 12 comments

  1. 通过https://github.com/PaddlePaddle/PaddleVideo/tree/develop/applications/PPHuman这个链接的下载数据,已经转换好的npy和pkl数据文件。 1

  2. 开启训练过程(windows系统,cuda10.2 cudnn7.6.5 paddlepaddle2.3),python main.py --validate -c applications/PPHuman/configs/stgcn_pphuman.yaml

  3. 训练中断如图所示: 2

tuodi avatar May 17 '22 08:05 tuodi

配置文件里有设置 max_iters 参数吗

huangjun12 avatar May 17 '22 09:05 huangjun12

有,设置为50。

1021768023 @.***

 

------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleVideo" @.>; 发送时间: 2022年5月17日(星期二) 下午5:34 @.>; @.@.>; 主题: Re: [PaddlePaddle/PaddleVideo] 训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述: (Issue #431)

配置文件里有设置 max_iters 参数吗

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

tuodi avatar May 17 '22 09:05 tuodi

max_iter参数所在行注释了吧,它的作用是:迭代max_iter个iter后就退出程序。 log_interval(打印间隔)如果设置的是50的话,看起来就是只输出一次日志就停了。

huangjun12 avatar May 17 '22 12:05 huangjun12

您好,我在我的配置文件里并没有发现max_iter参数项,PaddleVideo-develop\configs\recognition\stgcn\stgcn_fsd.yaml

1021768023 @.***

 

------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleVideo" @.>; 发送时间: 2022年5月17日(星期二) 晚上8:43 @.>; @.@.>; 主题: Re: [PaddlePaddle/PaddleVideo] 训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述: (Issue #431)

把max_iter参数所在行注释了吧,它的作用是:迭代max_iter个iter后就退出程序。 log_interval(打印间隔)如果设置的是50的话,看起来就是只输出一次日志就停了。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

tuodi avatar May 17 '22 13:05 tuodi

log_interval设为1,看下几个iter后停了呢

huangjun12 avatar May 18 '22 02:05 huangjun12

这个与batch_size有关,当batch_size=8时,step在360中断,当batch_size=16时,step在180中断。

1021768023 @.***

 

------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleVideo" @.>; 发送时间: 2022年5月18日(星期三) 上午10:10 @.>; @.@.>; 主题: Re: [PaddlePaddle/PaddleVideo] 训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述: (Issue #431)

log_interval设为1,看下几个iter后停了呢

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

tuodi avatar May 18 '22 03:05 tuodi

方便的话可以把配置文件贴出来看一下~

huangjun12 avatar May 20 '22 03:05 huangjun12

您好,这是我的配置文件,所在路径为PPVideo工程目录中:/applications/PPHuman/configs/stgcn_pphuman.yaml 

1021768023 @.***

 

------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleVideo" @.>; 发送时间: 2022年5月20日(星期五) 中午11:07 @.>; @.@.>; 主题: Re: [PaddlePaddle/PaddleVideo] 训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述: (Issue #431)

方便的话可以把配置文件贴出来看一下~

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

tuodi avatar May 24 '22 07:05 tuodi

换了几个数据集,都是在同样的step中断,应该和数据无关,但是我的显存也没爆。

1021768023 @.***

 

------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleVideo" @.>; 发送时间: 2022年5月20日(星期五) 中午11:07 @.>; @.@.>; 主题: Re: [PaddlePaddle/PaddleVideo] 训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述: (Issue #431)

方便的话可以把配置文件贴出来看一下~

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

tuodi avatar May 24 '22 08:05 tuodi

今天我整个将ppvideo中train.py调试了一遍,一个epoch需要182个step,从step0到step181都能正常运行,当对epoch0做eval时中断,断点直接跳过(原因未知)。

1021768023 @.***

 

------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleVideo" @.>; 发送时间: 2022年5月20日(星期五) 中午11:07 @.>; @.@.>; 主题: Re: [PaddlePaddle/PaddleVideo] 训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述: (Issue #431)

方便的话可以把配置文件贴出来看一下~

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

tuodi avatar May 24 '22 12:05 tuodi

补充:我用的是windows10的系统

1021768023 @.***

 

------------------ 原始邮件 ------------------ 发件人: "PaddlePaddle/PaddleVideo" @.>; 发送时间: 2022年5月20日(星期五) 中午11:07 @.>; @.@.>; 主题: Re: [PaddlePaddle/PaddleVideo] 训练ST-GCN时,只开启epoch1就中断了,也没有报错提示,可能什么原因呢?以下是详细的问题描述: (Issue #431)

方便的话可以把配置文件贴出来看一下~

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

tuodi avatar May 24 '22 13:05 tuodi

  1. 在配置文件里,把num_workers设置为0,看下能否打印出日志呢
  2. 检查下val数据集路径是否正确呢

huangjun12 avatar May 30 '22 02:05 huangjun12