Passerby
Passerby
We didn't control the goalkeeper because we couldn't execute a “SAVE BALL” action
多写PPT
用管理员模式运行powershell
dr397379567#gmail.com
训练成本太高,可能不太会。
如果有一线职业战队合作的话,可能会考虑
是的,两个模型是分开训练的。多个动作的输出其实也没什么难度,就是几个 loss 累加起来。 分布式训练比较麻烦的数据传输和分布式能力,这部分代码涉及一些代码和公司内部运维设施相关,想分离比较困难,只有公司内部员工可以看。
最好是分布式机器,这个模型我记得是用 16xT4 卡训练,还有 1000 CPU cores 游戏实例,训练的时候要注意动作执行是否被执行,因为action 会有 timeout 机制,inference 速度和 feature 处理的时间要监控好,最好用 0.5 倍速跑游戏环境。最早我们也用过 1080TI 训练,问题还是很多的。 如果是个人单机的话,可以试试那个卡兵的任务 creep block model,训练起来会简单很多。 可以多反复看看 OpenAI Five 论文,里面有很多实用性的经验 https://arxiv.org/abs/1912.06680
https://github.com/bilibili/LastOrder-Dota2/blob/97e9c1e6e09b545fec2b8f8a6967858868f8c7ea/play_with_human_local.py#L74 改这一行的四个参数可以实现,TEAM_RADIANT 改成 TEAM_DIRE,后面两个一个是自己的玩家ID,一个是对手的ID,这个好像会经常变动,要调试代码输出一下才知道。
检查一下游戏路径对么