Deep Learning/RL 6

RL) Hindsight Experience Replay

논문 링크 : https://arxiv.org/pdf/1707.01495.pdf 이전 게시글 : Multi-task RL 과 Goal-conditioned RL 이란 HER Idea Hindsight는 '뒤늦은 깨달음' 이라는 의미를 가집니다. 간단한 아이디어는 다음과 같습니다. 만약 위와 같이 2가지 테스크를 진행하고자 합니다. 첫번째는 패스를 하는 것이고, 두번째는 골을 넣는 것입니다. 테스크2(골 넣기)를 위해 에피소드를 진행했습니다. 그런데 알고보니 그 중 테스크1, 즉 아주 좋은 패스를 했다면? 어떻게 해야할까요? 에서 시작하게 됩니다. 자 어떤걸 선택할까요? 난 골을 넣으려고 했는데 패스를 해버린거니까 0점을 줄수도 있겠고, '그런식으로 패스를 하면 돼!' 라고 100점을 줄 수도 있겠죠. 이..

Deep Learning/RL 2021.08.27

Multi-task RL

cs330 강의를 바탕으로 요약 정리하였다. 강의링크 1. Multi-task Learning 과 Meta-learning 의 차이점 Multi-task Learning : 여러 타입의 task를 학습하고, 해당 task들을 수행합니다. Meta-learning : 여러 타입의 task가 주어지면, 새로운 테스크가 주어질 때 어떻게 학습해야 할지를 학습합니다. RL의 task는 다음과 같이 MDP로 정의된다. Multi-task RL 은 어떻게 정의될까? 우선 multi-task RL의 예시를 생각해보자. 1) 사용자 맞춤형 추천 : p(s'|s,a), r(s,a) vary across users(tasks). 사용자에게 물품(state)을 하나씩 추천해주며(action), 사용자의 평가(reward)에..

Deep Learning/RL 2021.08.22

[paper review] Asynchronous Methods for Deep RL

요약 비동기식 deep RL gradient descent 방법론 제안. value-based, policy-based, on-policy, off-policy 구분없이 적용 가능. 가장 성능 좋은 것이 A2C+비동기식. multi-core CPU, multi-threads 사용하여 학습 가능. 학습속도 개선. on-line RL 의 문제점은, 데이터간의 상관성이 매우 높아서(현 state, action 으로 인해 다음 state가 결정되므로) 학습이 어렵다는 문제점이 있다. 이를 해결하기 위한 기존 접근이 Experience Replay. Experience Replay 는 agent의 경험을 모아놓고, 여기서 랜덤으로 샘플링하여 학습에 사용한다. 각 데이터간의 상관성이 줄어들고, 예전 경험을 사용할 ..

Deep Learning/RL 2021.05.21

RL) 03. Monte-Carlo Prediction

Model-free Model-free 란, MDP에서 환경의 모델에 해당하는 상태변환확률(State transition Probability), 보상(Reward)을 모른다는 것. Monte-Carlo Prediction — 본래 정책평가(policy evaluation)는 벨만 기대 방정식을 계산하여 참 가치함수 값을 구함. — 몬테카를로 예측은 "일단 해보는" 방법으로 참 가치함수 값을 예측한다. 위의 그림은 몬테카를로 근사를 직관적으로 이해할 수 있는 예시이다. 몬테카를로의 과정은 다음과 같다. 현재 정책에 따라 계속 행동해본다. 그에 따른 보상을 받는다. 에피소드가 끝난 후 반환값을 얻는다. 각 상태의 반환값들의 평균을 통해 참 가치함수 값을 추정한다. 다음 그림처럼 반환값은 에피소드 동안 지나..

Deep Learning/RL 2021.03.30

RL) 02. Dynamic Programming

MDP를 알 때의 planning MDP를 안다 = Reward function과 Transition Probability를 안다. = 어떤 상태 s에서 행동 a를 실행하면 다음 상태가 어떻게 정해지는지, 보상이 어떻게 될지 미리 알고있다. Prediction ) 정책이 주어졌을 때 각 상태의 value를 평가한다. (value값 구함) Control ) 최적의 정책 함수를 찾음. Prediction (Iterative policy evaluation을 통해) Q1) 하지만 초반에 모든 값들이 0으로 초기화 되어있고, 현재 상태의 값과 다음 상태의 값들이 모두 0인데, 다음 상태의 값으로 현재 상태 값을 업데이트하는 것이 의미가 있을까? 하지만 S_t의 값을 업데이트할 때, S_t+1 뿐만 아니라, R_..

Deep Learning/RL 2021.03.30

RL) 01. MDP

MDP(Markov Decision Processes) Markov Property (3.4) next state (S_t+1)은 이전의 모든 state들의 영향을 받는다. (3.5) t+1의 시점의 환경의 반응(Reward, State)은 S_t(현재상태)의 영향만을 받는다. 식 3.4 처럼 처음 어떠한 상태(S_0)로부터 시작해서 현재 상태(S_t)까지 올 확률이 바로 전 상태에서 현재 상태까지 올 확률과 같을 때, 식 3.5처럼 표현이 될 수 있고 state는 Markov하다고 일컬어질 수 있다. Markov state : Markov property(위의 성질)를 갖고있는 state. MDP S(State) 상태, A(Action)행동, P(transition probability)상태변환확률, ..

Deep Learning/RL 2021.03.19