jazzly comments

Results 5 comments of


                                            jazzly

对浙江杭州电信ITV的抓包研究 Part 1

好久没有看电信iptv了。最近打开看的时候，发现杭州iptv改了，以前是dhcp验证的。现在变成PPPoE了（机顶盒自动更新了）。楼主还没有变吗？

[Question]: paddle.distributed.launch 启动多进程训练结束后Loading best model from checkpoint 报错

使用的版本如下： - paddlepaddle: 2.6.1 - paddlenlp: 2.8.0

[Question]: paddle.distributed.launch 启动多进程训练结束后Loading best model from checkpoint 报错

> 可以看一下你的checkpoint/checkpoint-170目录，是不是没有保存tokenizer，一个简单的解决方式是去掉参数： > > ``` > load_best_model_at_end > ``` 是这样的，如果要使用early_stopping ，那么load_best_model_at_end是必须项。当报这个错的时候，类似checkpoint-170这种目录已经不存在了。我查看worklog发现，其实训练已经完成了。但是可能是多进程开启的原因，每个进程都想load_best_model_at_end。所以只有一个进程能成功。其它的进程应该都失败了。 python3 -m paddle.distributed.launch --nproc_per_node=24 这样是正确开启多进程的方式吗？在CPU模式下

[Question]: paddle.distributed.launch 启动多进程训练结束后Loading best model from checkpoint 报错

> 不建议在cpu上训练，训练效率低，gpu的分布式训练文档参考： > > https://www.paddlepaddle.org.cn/documentation/docs/zh/api/paddle/distributed/launch_cn.html#launch > > ``` > --nproc_per_node：每个节点启动的进程数，在 GPU 训练中，应该小于等于系统的 GPU 数量。例如 --nproc_per_node=8 > ``` 暂时手头没有GPU可用，使用CPU测试的。示例任务使用24个CPU核心训练大概4个小时不到就够了。还可一用。我的意思是，CPU模式如果不用 paddle.distributed.launch 那么应该如何正确开启多线程或多进程训练？

[Question]: paddle.distributed.launch 启动多进程训练结束后Loading best model from checkpoint 报错

> 这个可以在框架下面提issue，cpu场景不是很高频，应该是不支持的，分布式训练可以参考文档： > > https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/06_distributed_training/index_cn.html OK，明白了。感谢