학습모델 질문

Open ghdrl95 opened this issue 7 years ago • 1 comments

사용한 Policy Gradient의 명칭을 알려주실수 있나요? actor-critic 방식이 아닌것같아 질문드립니다.

Jan 02 '19 14:01 ghdrl95

@ghdrl95 질문 주신 것처럼 RLTrader에서의 Policy Gradient는 actor-critic 방식은 아닙니다. actor-critic은 value approximation과 policy approximation을 혼합한 방식으로 알고 있습니다. 책에서 다룬 Policy Gradient는 policy approximation만 수행합니다. RLTrader를 actor-critic 방식으로 수정해 보는것도 좋은 실험이 될 것 같습니다.

Jan 03 '19 08:01 quantylab