关于多个agent衰退区间相似的问题

Open scirocc opened this issue 4 years ago • 1 comments

您这里提出，多个agent的回撤区间都差不多，可不可以利用ma-ppo对多个智能体加一个惩罚项呢，就让多个智能体在相同state下输出的action相似时就给他们一个负的reward。我看过很多研报，基本都是在说要尽量训练多个不相似的agent，然后把他们的决策汇总作为最终输出（类似boosting）

Aug 30 '21 06:08 scirocc

是可以的，具体可以参考 FinRL 下的这个 notebook

Sep 03 '21 06:09 sunnyswag

new link: notebook

Mar 24 '24 07:03 sunnyswag