DP 3

RL) 02. Dynamic Programming

MDP를 알 때의 planning MDP를 안다 = Reward function과 Transition Probability를 안다. = 어떤 상태 s에서 행동 a를 실행하면 다음 상태가 어떻게 정해지는지, 보상이 어떻게 될지 미리 알고있다. Prediction ) 정책이 주어졌을 때 각 상태의 value를 평가한다. (value값 구함) Control ) 최적의 정책 함수를 찾음. Prediction (Iterative policy evaluation을 통해) Q1) 하지만 초반에 모든 값들이 0으로 초기화 되어있고, 현재 상태의 값과 다음 상태의 값들이 모두 0인데, 다음 상태의 값으로 현재 상태 값을 업데이트하는 것이 의미가 있을까? 하지만 S_t의 값을 업데이트할 때, S_t+1 뿐만 아니라, R_..

Deep Learning/RL 2021.03.30