scirocc
scirocc
问题出在这, self.main_wnd.window(control_id=0x408, class_name="Edit"). .set_text(str(stock_no)) # 设置股票代码 这个元素的定位是成功的,draw_outline()可以正常显示,但set_text后毫无反应
您这里提出,多个agent的回撤区间都差不多,可不可以利用ma-ppo对多个智能体加一个惩罚项呢,就让多个智能体在相同state下输出的action相似时就给他们一个负的reward。我看过很多研报,基本都是在说要尽量训练多个不相似的agent,然后把他们的决策汇总作为最终输出(类似boosting)
is it some mask mechanism as in transformer decoder
#alpha_loss = -(self.log_alpha * (log_pi + self.target_entropy).detach()).mean() #self.alpha_optim.zero_grad() #alpha_loss.backward() #self.alpha_optim.step() why not update?