reinforcement-learning-kr
reinforcement-learning-kr copied to clipboard
monte carlo에서 왜 last visit 방식으로 구현?
MC방법에서는 first visit, every visit 방식이 있는 것으로 알고 있습니다. 코드 구현은 last visit 방식인데, 이유가 있나요?