DBRL icon indicating copy to clipboard operation
DBRL copied to clipboard

请问在BCQ模型代码中,求当前状态q值的时候为什么没有使用训练样本中的action?

Open huangpingchun opened this issue 1 year ago • 0 comments

    s = self.generator.get_state(data).detach()
    gen_actions = self.generator.decode(s)
    a = self.perturbator(s, gen_actions).detach()
    #  a = self.item_embeds[data["action"]]  #bcq.py 文件第156行,按照bcq原始算法讲解,这里应该求q值的时候应该使用训练样本中的 s和a,在求y值时候才使用next_state 预估的新的next_action.想知道是什么是什么原因这里注释掉了?
    q1 = self.critic1(s, a)
    q2 = self.critic2(s, a)

huangpingchun avatar Dec 30 '24 03:12 huangpingchun