DBRL
DBRL copied to clipboard
请问在BCQ模型代码中,求当前状态q值的时候为什么没有使用训练样本中的action?
s = self.generator.get_state(data).detach()
gen_actions = self.generator.decode(s)
a = self.perturbator(s, gen_actions).detach()
# a = self.item_embeds[data["action"]] #bcq.py 文件第156行,按照bcq原始算法讲解,这里应该求q值的时候应该使用训练样本中的 s和a,在求y值时候才使用next_state 预估的新的next_action.想知道是什么是什么原因这里注释掉了?
q1 = self.critic1(s, a)
q2 = self.critic2(s, a)