rltrader icon indicating copy to clipboard operation
rltrader copied to clipboard

즉각적인 보상 term에 관련하여

Open yanagi7393 opened this issue 3 years ago • 1 comments

안녕하세요, 책 유익하게 읽었습니다. 즉각적인 보상term에 관련하여 질문이 있어 issue에 게재합니다. r = memory_reward[-1] - reward로 정의가 되어있는데, episode 마지막시점에서의 PL - 현재시점에서의 PL로서 정의가 되어있는데, 이 경우에 즉각적인 보상이 아니라, r이 현재시점으로부터 미래의 행동에 대해 받는 미래의보상으로 정의가 되어있는것이 아닌지 의문이 들어 질문드립니다. 괜찮으시다면 이렇게 정의하신 연유를 여쭈어도 될까요?

또한, 즉각적인 보상term에 관련하여 r = 이전시점pl - 행동에 대해 변화된 현재시점pl 으로서 정의하는것에대해 혹여나 의견을 받을 수 있으면 정말 감사할 것 같습니다.

yanagi7393 avatar Dec 04 '22 08:12 yanagi7393

즉시 보상을 r = memory_reward[-1] - reward 정의한 부분이 있었나요? 책의 페이지 번호를 알려주시면 감사하겠습니다.

말씀하신 것처럼 즉시보상을 이전 시점에서 현재 시점의 손익으로 정할 수 있겠습니다.

quantylab avatar Oct 26 '23 08:10 quantylab