Nighthawk
Nighthawk
# 第一次作业 > 很荣幸入选 Angel 项目,开始开源实战环节。能够和导师们、同学们共同学习、了解 Angel 分布式机器学习平台架构设计原理是个难得的机会。以下是本次开源活动的实战笔记。因本人水平有限,错误和不足之处在所难免,敬请各位专家读者指正。 # Angel 环境搭建 本次项目是基于 [Angel-ML/PyTorch-On-Angel](https://github.com/Angel-ML/PyTorch-On-Angel) 的一个论文复现,在进行其它工作之前,我们需要部署一个可以运行的环境。  PyTorch on Angel's architecture PyTorch-On-Angel 主要由三个模块构成: 1. Python Client:用于生成 ScriptModule 2. Angel PS:参数服务器,负责模型的分布式存储、同步和协调计算 3. Spark:Spark...
1. 增加 MMoE 的 python 实现; 2. SampleParser 支持 multilabel 的 libsvm; 3. 支持 multi_forward_out; 4. 将 0.3.0 的 multilabelauc 实现回合到当前版本; 以上代码经过测试,MMoE 单任务,多任务均可以正确训练、运行;测试示例模型 deepfm 亦无影响,可以正确运行。
This PR fixes #723, older PyTorch versions (pre-2.2, roughly, [7fc2929](https://github.com/pytorch/pytorch/commit/7fc292930c3b8ae5f6dec0a6176d4b5ca0b29d8f)) don’t support arg `generator`, leading to the error: ``` Traceback (most recent call last): ... File "~/llm.c/train_gpt2.py", line 160, in...