Deep Learning/RL

RL) 03. Monte-Carlo Prediction

zooyeonii 2021. 3. 30. 14:52
  • Model-free
    Model-free 란, MDP에서 환경의 모델에 해당하는 상태변환확률(State transition Probability), 보상(Reward)을 모른다는 것.
  • Monte-Carlo Prediction
    — 본래 정책평가(policy evaluation)는 벨만 기대 방정식을 계산하여 참 가치함수 값을 구함.
    — 몬테카를로 예측은 "일단 해보는" 방법으로 참 가치함수 값을 예측한다.

출처 : zooyeonii , 참고 : 파이썬과 케라스로 배우는 강화학습

위의 그림은 몬테카를로 근사를 직관적으로 이해할 수 있는 예시이다. 몬테카를로의 과정은 다음과 같다. 

  1. 현재 정책에 따라 계속 행동해본다.
  2. 그에 따른 보상을 받는다.
  3. 에피소드가 끝난 후 반환값을 얻는다.
  4. 각 상태의 반환값들의 평균을 통해 참 가치함수 값을 추정한다.

다음 그림처럼 반환값은 에피소드 동안 지나쳐왔던 각 상태마다 존재할 것이다. 

출처 : zooyeonii , 참고 : 파이썬과 케라스로 배우는 강화학습
출처 : zooyeonii , 참고 : 파이썬과 케라스로 배우는 강화학습

 

전 과정을 그림으로 표현하자면,

출처 : zooyeonii

에피소드가 끝난 후, 에피소드 동안 경험했던 모든 상태에 대해 가치함수를 업데이트 한다.

한계점 : 실시간이 아니라서 한 에피소드가 매우 긴 경우 부적합함.

'Deep Learning > RL' 카테고리의 다른 글

RL) Hindsight Experience Replay  (0) 2021.08.27
Multi-task RL  (0) 2021.08.22
[paper review] Asynchronous Methods for Deep RL  (0) 2021.05.21
RL) 02. Dynamic Programming  (0) 2021.03.30
RL) 01. MDP  (0) 2021.03.19