Multi-task RL

Deep Learning/RL

Multi-task RL

zooyeonii 2021. 8. 22. 00:37

cs330 강의를 바탕으로 요약 정리하였다. 강의링크

1. Multi-task Learning 과 Meta-learning 의 차이점

Multi-task Learning : 여러 타입의 task를 학습하고, 해당 task들을 수행합니다.
Meta-learning : 여러 타입의 task가 주어지면, 새로운 테스크가 주어질 때 어떻게 학습해야 할지를 학습합니다.

RL의 task는 다음과 같이 MDP로 정의된다.

Multi-task RL 은 어떻게 정의될까?

우선 multi-task RL의 예시를 생각해보자.

1) 사용자 맞춤형 추천 : p(s'|s,a), r(s,a) vary across users(tasks).
사용자에게 물품(state)을 하나씩 추천해주며(action), 사용자의 평가(reward)에 따라 폴리시를 개선하는, sequential decision making problem 이라고 생각해보자.
이 때 각 사용자를 task라고 생각한다면, 사용자에 따라 추천 물품에 대한 평가(reward)과 그에 따라 시스템의 다음 추천물품(transition prob)이 달라질 것이다.

2) 같은 task를 수행하는 다른 플랫폼의 로봇 : S, A, p(s_1), p(s'|s,a) vary across robots(tasks).

예를 들어 '탁구공 집기'라는 같은 task를 수행하는 A사 로봇, B사 로봇이 있을 때, 둘의 구조와 생김새가 다름에 따라 MDP의 차이가 있을 것이다.

Multi-task는 한가지, task-id 가 추가 된다.

task-id(z_i)는 state에 추가된다. 기존 single task 에서 multi-task 로 변하면서 task의 집합으로 표기되며 s에 z_i가 추가된 것만 다르다.

task id 는 다양하게 정할 수 있다.

1) one-hot

2) desired goal state, z_i = s_g (goal-conditioned RL)
도달하고 싶은 목표 state를 task-id로 지정하는 것을 의미함.

reward 는 어떻게 지정할까?

goal-conditioned RL 의 reward : r(s) = r(s, s_g) = -d(s, s_g)
-(original state와 goal state 간의 거리)
distance function 은 유클리드 거리, 0/1 → state == goal state이면 1. (sparse, but accurate) 등이 있음.

goal-conditioned RL 이 자주 언급되는데, 이는 multi-task RL 중 하나이다.
'task'를 'goal state'로 정의하고, 'task'가 'goal reaching task'인 problem이 이에 해당된다.

Multi-task 라고는 하지만, 똑같이 standard MDP로 정의 가능한데, 그냥 RL algorithm으로 풀면 안돼?

→ 되긴 돼! 그냥 더 잘 되는 알고리즘인거지..!

저작자표시 비영리

'Deep Learning > RL' 카테고리의 다른 글

RL) Hindsight Experience Replay (0)	2021.08.27
[paper review] Asynchronous Methods for Deep RL (0)	2021.05.21
RL) 03. Monte-Carlo Prediction (0)	2021.03.30
RL) 02. Dynamic Programming (0)	2021.03.30
RL) 01. MDP (0)	2021.03.19

현재글Multi-task RL

Ai린이의 우가우가 공부기록

네이버부스트캠프AI, 도커, go-ipfs, BOJ, 프로그래머스, DP, 인생회고록, docker, 취준일기, Unsupervised Domain Adaptation, 파이토치, ipfs, torch-geometric install, 네이버부스트캠프, torch-geometric, 도커이미지, 회고록, 취준생일기, BFS, RL,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

나의 공부소리 : 우가우가

Multi-task RL

1. Multi-task Learning 과 Meta-learning 의 차이점

Multi-task RL 은 어떻게 정의될까?

'Deep Learning > RL' 카테고리의 다른 글

'Deep Learning/RL'의 다른글

티스토리툴바

Multi-task RL

1. Multi-task Learning 과 Meta-learning 의 차이점

Multi-task RL 은 어떻게 정의될까?

'Deep Learning > RL' 카테고리의 다른 글

'Deep Learning/RL'의 다른글

관련글

티스토리툴바