请问在BCQ模型代码中，求当前状态q值的时候为什么没有使用训练样本中的action？

Open huangpingchun opened this issue 1 year ago • 0 comments

    s = self.generator.get_state(data).detach()
    gen_actions = self.generator.decode(s)
    a = self.perturbator(s, gen_actions).detach()
    #  a = self.item_embeds[data["action"]]  #bcq.py 文件第156行，按照bcq原始算法讲解，这里应该求q值的时候应该使用训练样本中的 s和a，在求y值时候才使用next_state 预估的新的next_action.想知道是什么是什么原因这里注释掉了？
    q1 = self.critic1(s, a)
    q2 = self.critic2(s, a)

Dec 30 '24 03:12 huangpingchun