guochaorong

Results 8 comments of guochaorong

后续有两个问题 1 base模型的名字__xxx ,等所有模型改造完成后,统一改为 base_xxx之类,该类模型不跑 2. 一个模型各类数据对比, 后续从web层面出数据做。

恩恩, 可读性更好一点~

对CE中模型进行梳理(见后面所附表), 模型如下: image_classification vgg16 mnist object_detection resnet30 resnet50 seq2seq sequence_tagging_for_ner text_classification transformer language_model lstm 需要考虑增加和对齐的内容如下: 1. 模型都改成多卡跑(4卡)(后续,我把指定卡放到外边,单卡、多卡均跑一遍) 2. 每个模型的评价指标需要包含这4个数据(acc/ppl,cost ,mem 和 duration) 3. 目前只监控了上述4个评价指标的diff,我观察到两种非预期情况,1 .跑得时间很短, acc 很低(0.1),2. 跑了很多轮, acc很低(0.1,模型自身有问题)。 暂时方案,...

on v100 machine, the output fluid.tgz will be bigger then 2 G. since we have no idea which lead to this, and since the machine can't run pr CI job...

yes, done. http://ci.paddlepaddle.org/agentDetails.html?id=7&agentTypeId=7&realAgentName=ip_172.19.57.47-1

目前CE 框架中 db 数据处理部分结构不清晰。 需要用到的数据,都是一个字段一个字段拼凑出来。 不利于扩展, 并且每次查询全量信息, 首次查询时间较长(>5s). 封装成3个类,每个类中提供一个封装好的api。首次 查询时间优化到1s https://github.com/PaddlePaddle/continuous_evaluation/pull/59

https://github.com/PaddlePaddle/continuous_evaluation/pull/80

PR地址: https://github.com/Superjomn/paddle-ce-latest-kpis/pull/11/files 比较稳定的阈值设置如下: **mnist** train_cost_kpi = 0.02 test_acc_kpi = 0.005 train_duration_kpi = 0.02 train_acc_kpi = 0.005 **resnet30** train_cost_kpi = 0.05 train_acc_kpi = 0.02 test_acc_kpi = 0.05 train_speed_kpi = 0.01 train_duration_kpi...