'dynamic programming' 태그의 글 목록

RL) 02. Dynamic Programming

MDP를 알 때의 planning MDP를 안다 = Reward function과 Transition Probability를 안다. = 어떤 상태 s에서 행동 a를 실행하면 다음 상태가 어떻게 정해지는지, 보상이 어떻게 될지 미리 알고있다. Prediction ) 정책이 주어졌을 때 각 상태의 value를 평가한다. (value값 구함) Control ) 최적의 정책 함수를 찾음. Prediction (Iterative policy evaluation을 통해) Q1) 하지만 초반에 모든 값들이 0으로 초기화 되어있고, 현재 상태의 값과 다음 상태의 값들이 모두 0인데, 다음 상태의 값으로 현재 상태 값을 업데이트하는 것이 의미가 있을까? 하지만 S_t의 값을 업데이트할 때, S_t+1 뿐만 아니라, R_..

Deep Learning/RL 2021.03.30

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

나의 공부소리 : 우가우가

dynamic programming 1

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역