'RL Monte Carlo Prediction' 태그의 글 목록

RL) 03. Monte-Carlo Prediction

Model-free Model-free 란, MDP에서 환경의 모델에 해당하는 상태변환확률(State transition Probability), 보상(Reward)을 모른다는 것. Monte-Carlo Prediction — 본래 정책평가(policy evaluation)는 벨만 기대 방정식을 계산하여 참 가치함수 값을 구함. — 몬테카를로 예측은 "일단 해보는" 방법으로 참 가치함수 값을 예측한다. 위의 그림은 몬테카를로 근사를 직관적으로 이해할 수 있는 예시이다. 몬테카를로의 과정은 다음과 같다. 현재 정책에 따라 계속 행동해본다. 그에 따른 보상을 받는다. 에피소드가 끝난 후 반환값을 얻는다. 각 상태의 반환값들의 평균을 통해 참 가치함수 값을 추정한다. 다음 그림처럼 반환값은 에피소드 동안 지나..

Deep Learning/RL 2021.03.30

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

나의 공부소리 : 우가우가

RL Monte Carlo Prediction 1

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역