Deep Learning/RL

Multi-task RL

zooyeonii 2021. 8. 22. 00:37

cs330 강의를 바탕으로 요약 정리하였다. 강의링크

1. Multi-task Learning 과 Meta-learning 의 차이점

Multi-task Learning : 여러 타입의 task를 학습하고, 해당 task들을 수행합니다. 
Meta-learning : 여러 타입의 task가 주어지면, 새로운 테스크가 주어질 때 어떻게 학습해야 할지를 학습합니다. 

 

RL의 task는 다음과 같이 MDP로 정의된다. 

Multi-task RL 은 어떻게 정의될까?

우선 multi-task RL의 예시를 생각해보자. 


1) 사용자 맞춤형 추천 :  p(s'|s,a), r(s,a)  vary across users(tasks). 
사용자에게 물품(state)을 하나씩 추천해주며(action), 사용자의 평가(reward)에 따라 폴리시를 개선하는, sequential decision making problem 이라고 생각해보자. 
이 때 각 사용자를 task라고 생각한다면, 사용자에 따라 추천 물품에 대한 평가(reward)과 그에 따라 시스템의 다음 추천물품(transition prob)이 달라질 것이다. 

2) 같은 task를 수행하는 다른 플랫폼의 로봇 :  S, A, p(s_1), p(s'|s,a)  vary across robots(tasks). 


예를 들어 '탁구공 집기'라는 같은 task를 수행하는 A사 로봇, B사 로봇이 있을 때, 둘의 구조와 생김새가 다름에 따라 MDP의 차이가 있을 것이다. 

 

Multi-task는 한가지, task-id 가 추가 된다. 

task-id(z_i)는 state에 추가된다. 기존 single task 에서 multi-task 로 변하면서 task의 집합으로 표기되며 s에 z_i가 추가된 것만 다르다. 

task id 는 다양하게 정할 수 있다. 

1) one-hot 

2) desired goal state, z_i = s_g (goal-conditioned RL)
도달하고 싶은 목표 state를 task-id로 지정하는 것을 의미함. 

 

reward 는 어떻게 지정할까?

goal-conditioned RL 의 reward : r(s) = r(s, s_g) = -d(s, s_g)
-(original state와 goal state 간의 거리) 
distance function 은 유클리드 거리, 0/1 → state == goal state이면 1. (sparse, but accurate) 등이 있음.

 

goal-conditioned RL 이 자주 언급되는데, 이는 multi-task RL 중 하나이다.
'task''goal state'로 정의하고, 'task''goal reaching task'인 problem이 이에 해당된다.

 

Multi-task 라고는 하지만, 똑같이 standard MDP로 정의 가능한데, 그냥 RL algorithm으로 풀면 안돼?

→ 되긴 돼! 그냥 더 잘 되는 알고리즘인거지..!

'Deep Learning > RL' 카테고리의 다른 글

RL) Hindsight Experience Replay  (0) 2021.08.27
[paper review] Asynchronous Methods for Deep RL  (0) 2021.05.21
RL) 03. Monte-Carlo Prediction  (0) 2021.03.30
RL) 02. Dynamic Programming  (0) 2021.03.30
RL) 01. MDP  (0) 2021.03.19