Deep Learning 12

EvolveGCN

이 논문은 official code가 있다. https://github.com/IBM/EvolveGCN IBM에서 발표한 논문이다.. https://arxiv.org/pdf/1902.10191.pdf AAAI 2020 dynamic graph를 다루기 위해 GNN+RNN을 결합시켰다. 기존 GNN+RNN 의 결합은, GNN은 feature 추출용으로, RNN은 추출된 feature, sequence learning 용으로 쓰였었는데, 하지만 이럴 경우 새로운 노드의 학습이 어렵고, 노드가 on/off 되는 경우의 학습이 어렵다. EvolveGCN은 RNN으로 GCN parameter를 업데이트하면서 GCN parameter가 historical information, 즉 과거 그래프의 정보를 포함하게 된..

Deep Learning/GNN 2021.08.29

RL) Hindsight Experience Replay

논문 링크 : https://arxiv.org/pdf/1707.01495.pdf 이전 게시글 : Multi-task RL 과 Goal-conditioned RL 이란 HER Idea Hindsight는 '뒤늦은 깨달음' 이라는 의미를 가집니다. 간단한 아이디어는 다음과 같습니다. 만약 위와 같이 2가지 테스크를 진행하고자 합니다. 첫번째는 패스를 하는 것이고, 두번째는 골을 넣는 것입니다. 테스크2(골 넣기)를 위해 에피소드를 진행했습니다. 그런데 알고보니 그 중 테스크1, 즉 아주 좋은 패스를 했다면? 어떻게 해야할까요? 에서 시작하게 됩니다. 자 어떤걸 선택할까요? 난 골을 넣으려고 했는데 패스를 해버린거니까 0점을 줄수도 있겠고, '그런식으로 패스를 하면 돼!' 라고 100점을 줄 수도 있겠죠. 이..

Deep Learning/RL 2021.08.27

Multi-task RL

cs330 강의를 바탕으로 요약 정리하였다. 강의링크 1. Multi-task Learning 과 Meta-learning 의 차이점 Multi-task Learning : 여러 타입의 task를 학습하고, 해당 task들을 수행합니다. Meta-learning : 여러 타입의 task가 주어지면, 새로운 테스크가 주어질 때 어떻게 학습해야 할지를 학습합니다. RL의 task는 다음과 같이 MDP로 정의된다. Multi-task RL 은 어떻게 정의될까? 우선 multi-task RL의 예시를 생각해보자. 1) 사용자 맞춤형 추천 : p(s'|s,a), r(s,a) vary across users(tasks). 사용자에게 물품(state)을 하나씩 추천해주며(action), 사용자의 평가(reward)에..

Deep Learning/RL 2021.08.22

[paper review] Unsupervised pixel-level Domain Adaptation with GAN

배경 large-scale, well-annotated 데이터를 모으는 것은 매우 많은 비용이 든다. 따라서 pre-train 된 모델에서 knowledge trasfer 하여 모델을 구성하는 방법이 제시되어왔다. 하지만 데이터의 분포가 다르기 때문에 실제 제대로 작동하지 않는 문제점이 있다. 이러한 데이터 간 분포의 차이를 domain shift라고 하며, domain adaptation은 이를 줄이기 위해 제시된 방법이다. Domain Adaptation에는 여러 가지 방법이 있는데, 전에 다루었던 Unsupervised DA by backpropagation (2021.03.29 - [DeepLearning] - [paper review] Unsupervised Domain Adaptation by..

Deep Learning/CV 2021.05.28

[paper review] Asynchronous Methods for Deep RL

요약 비동기식 deep RL gradient descent 방법론 제안. value-based, policy-based, on-policy, off-policy 구분없이 적용 가능. 가장 성능 좋은 것이 A2C+비동기식. multi-core CPU, multi-threads 사용하여 학습 가능. 학습속도 개선. on-line RL 의 문제점은, 데이터간의 상관성이 매우 높아서(현 state, action 으로 인해 다음 state가 결정되므로) 학습이 어렵다는 문제점이 있다. 이를 해결하기 위한 기존 접근이 Experience Replay. Experience Replay 는 agent의 경험을 모아놓고, 여기서 랜덤으로 샘플링하여 학습에 사용한다. 각 데이터간의 상관성이 줄어들고, 예전 경험을 사용할 ..

Deep Learning/RL 2021.05.21

[paper review] Adversarial Discriminative Domain Adaptation

해당 논문은 기존의 Domain Adaptation을 요약하고, framework로 일반화한다. 그에 더불어 Unsupervised Domain Adaptation에 GAN loss function을 도입한다. 사실 GAN이 익숙하다면 예상이 가는 내용이다. 이해하려면 GAN 을 먼저 알아야한다. 위 그림은 기존의 Domain Adaptation 방법론들을 framework로 도식화한 것이다. 예를 들어 DANN의 경우 discriminative model, weights tied, mini-max objective 으로 분류된다. 모든 DA 방법론들을 1) Generative or discriminative model? 2) tied weight or untied? 3) adversarial objec..

Deep Learning/CV 2021.04.12

[paper review] Domain Separation Networks

Domain Adaptation by backpropagation VS DSN 한 줄 요약 : DANN 은 Source와 Target domain을 generalize 하도록 encoder를 학습시키고, DSN은 Source와 Target domain의 고유한 특징을 덜어냄으로써 generalize 한다. Model Architecture 3가지 구조 1. Private Encoder : Source / Target domain 각각의 고유한 특징을 추출하도록 학습한다. 2. Shared Encoder : Source / Target domain의 공통적인 특징을 추출하도록 학습한다. 3. Shared Decoder : Private, Shared representation을 통해 Source / Tar..

Deep Learning/CV 2021.04.03

RL) 03. Monte-Carlo Prediction

Model-free Model-free 란, MDP에서 환경의 모델에 해당하는 상태변환확률(State transition Probability), 보상(Reward)을 모른다는 것. Monte-Carlo Prediction — 본래 정책평가(policy evaluation)는 벨만 기대 방정식을 계산하여 참 가치함수 값을 구함. — 몬테카를로 예측은 "일단 해보는" 방법으로 참 가치함수 값을 예측한다. 위의 그림은 몬테카를로 근사를 직관적으로 이해할 수 있는 예시이다. 몬테카를로의 과정은 다음과 같다. 현재 정책에 따라 계속 행동해본다. 그에 따른 보상을 받는다. 에피소드가 끝난 후 반환값을 얻는다. 각 상태의 반환값들의 평균을 통해 참 가치함수 값을 추정한다. 다음 그림처럼 반환값은 에피소드 동안 지나..

Deep Learning/RL 2021.03.30

RL) 02. Dynamic Programming

MDP를 알 때의 planning MDP를 안다 = Reward function과 Transition Probability를 안다. = 어떤 상태 s에서 행동 a를 실행하면 다음 상태가 어떻게 정해지는지, 보상이 어떻게 될지 미리 알고있다. Prediction ) 정책이 주어졌을 때 각 상태의 value를 평가한다. (value값 구함) Control ) 최적의 정책 함수를 찾음. Prediction (Iterative policy evaluation을 통해) Q1) 하지만 초반에 모든 값들이 0으로 초기화 되어있고, 현재 상태의 값과 다음 상태의 값들이 모두 0인데, 다음 상태의 값으로 현재 상태 값을 업데이트하는 것이 의미가 있을까? 하지만 S_t의 값을 업데이트할 때, S_t+1 뿐만 아니라, R_..

Deep Learning/RL 2021.03.30