cs330 강의를 바탕으로 요약 정리하였다. 강의링크
1. Multi-task Learning 과 Meta-learning 의 차이점
Multi-task Learning : 여러 타입의 task를 학습하고, 해당 task들을 수행합니다.
Meta-learning : 여러 타입의 task가 주어지면, 새로운 테스크가 주어질 때 어떻게 학습해야 할지를 학습합니다.
RL의 task는 다음과 같이 MDP로 정의된다.
Multi-task RL 은 어떻게 정의될까?
우선 multi-task RL의 예시를 생각해보자.
1) 사용자 맞춤형 추천 : p(s'|s,a), r(s,a) vary across users(tasks).
사용자에게 물품(state)을 하나씩 추천해주며(action), 사용자의 평가(reward)에 따라 폴리시를 개선하는, sequential decision making problem 이라고 생각해보자.
이 때 각 사용자를 task라고 생각한다면, 사용자에 따라 추천 물품에 대한 평가(reward)과 그에 따라 시스템의 다음 추천물품(transition prob)이 달라질 것이다.
2) 같은 task를 수행하는 다른 플랫폼의 로봇 : S, A, p(s_1), p(s'|s,a) vary across robots(tasks).
예를 들어 '탁구공 집기'라는 같은 task를 수행하는 A사 로봇, B사 로봇이 있을 때, 둘의 구조와 생김새가 다름에 따라 MDP의 차이가 있을 것이다.
Multi-task는 한가지, task-id 가 추가 된다.
task-id(z_i)는 state에 추가된다. 기존 single task 에서 multi-task 로 변하면서 task의 집합으로 표기되며 s에 z_i가 추가된 것만 다르다.
task id 는 다양하게 정할 수 있다.
1) one-hot
2) desired goal state, z_i = s_g (goal-conditioned RL)
도달하고 싶은 목표 state를 task-id로 지정하는 것을 의미함.
reward 는 어떻게 지정할까?
goal-conditioned RL 의 reward : r(s) = r(s, s_g) = -d(s, s_g)
-(original state와 goal state 간의 거리)
distance function 은 유클리드 거리, 0/1 → state == goal state이면 1. (sparse, but accurate) 등이 있음.
goal-conditioned RL 이 자주 언급되는데, 이는 multi-task RL 중 하나이다.
'task'를 'goal state'로 정의하고, 'task'가 'goal reaching task'인 problem이 이에 해당된다.
Multi-task 라고는 하지만, 똑같이 standard MDP로 정의 가능한데, 그냥 RL algorithm으로 풀면 안돼?
→ 되긴 돼! 그냥 더 잘 되는 알고리즘인거지..!
'Deep Learning > RL' 카테고리의 다른 글
RL) Hindsight Experience Replay (0) | 2021.08.27 |
---|---|
[paper review] Asynchronous Methods for Deep RL (0) | 2021.05.21 |
RL) 03. Monte-Carlo Prediction (0) | 2021.03.30 |
RL) 02. Dynamic Programming (0) | 2021.03.30 |
RL) 01. MDP (0) | 2021.03.19 |