rltrader
rltrader copied to clipboard
학습모델 질문
사용한 Policy Gradient의 명칭을 알려주실수 있나요? actor-critic 방식이 아닌것같아 질문드립니다.
@ghdrl95 질문 주신 것처럼 RLTrader에서의 Policy Gradient는 actor-critic 방식은 아닙니다. actor-critic은 value approximation과 policy approximation을 혼합한 방식으로 알고 있습니다. 책에서 다룬 Policy Gradient는 policy approximation만 수행합니다. RLTrader를 actor-critic 방식으로 수정해 보는것도 좋은 실험이 될 것 같습니다.