MDP(Markov Decision Processes) Markov Property (3.4) next state (S_t+1)은 이전의 모든 state들의 영향을 받는다. (3.5) t+1의 시점의 환경의 반응(Reward, State)은 S_t(현재상태)의 영향만을 받는다. 식 3.4 처럼 처음 어떠한 상태(S_0)로부터 시작해서 현재 상태(S_t)까지 올 확률이 바로 전 상태에서 현재 상태까지 올 확률과 같을 때, 식 3.5처럼 표현이 될 수 있고 state는 Markov하다고 일컬어질 수 있다. Markov state : Markov property(위의 성질)를 갖고있는 state. MDP S(State) 상태, A(Action)행동, P(transition probability)상태변환확률, ..