분류 전체보기 89

8. ResNet 리뷰

Deep Residual Learning for Image Recognition (CVPR 2016) 본 논문에서는 깊은 네트워크를 학습시키기 위한 방법으로 Residual Learning을 제안하였다. 배경은 다음과 같다. 네트워크가 깊어지면서 생기는 문제점으로는 대표적으로 vanishing/exploding gradient , degradation 이 있다. vanishing gradient는 역전파 과정에서, 기울기가 0으로 줄어들면서 학습이 어려워지는 문제점을 뜻한다. 왼쪽 그래프는 training error, 오른쪽은 test error 그래프이다. training error는 낮고, test error가 높은 경우 overfitting, high variance라 하고, training err..

7. PyTorch DataLoader

Dataset 모델에 데이터를 feed하는 방법 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 class CustomDataset(torch.utils.data.Dataset): def __init__(self): 데이터셋의 전처리를 해주는 부분 self.x_data = [[1, 2, 3], [4, 5, 6]] self.y_data = [[0], [1]] def __len__(self): 데이터셋의 길이. 즉, 총 샘플의 수를 적어주는 부분 return len(self.x_data) def __getitem__(self, idx): 데이터셋에서 특정 1개의 샘플을 가져오는 함수 # 인덱스를 입력받아 그에 맵핑되는 입출력 데이터를 파이토치의 Tensor 형태로 ..

6. PyTorch nn.Module

nn.Module 딥러닝을 구성하는 Layer의 base class이다. Input, Output, Forward, Backward / 학습의 대상이 되는 parameter를 정의해야 한다. nn.Module 과 super().__init__() 코드 1 2 3 4 5 6 7 class GNNStack(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim, task='node'): super(GNNStack, self).__init__() self.task = task # ModuleList(): 각 레이어를 리스트에 전달하고 레이어의 iterator를 만든다. self.convs = nn.ModuleList() Colored by Color..

BOJ 결혼식, 계단오르기

1. BOJ 5567 (결혼식) https://www.acmicpc.net/problem/5567 5567번: 결혼식 예제 1의 경우 2와 3은 상근이의 친구이다. 또, 3과 4는 친구이기 때문에, 4는 상근이의 친구의 친구이다. 5와 6은 친구도 아니고, 친구의 친구도 아니다. 따라서 2, 3, 4 3명의 친구를 결혼식에 초대 www.acmicpc.net 코드 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 n = int(input()) m = int(input()) graph = [list(map(int, input().split())) for _ in range(m)] f1 = [] f2 = [] for i in range(m): if graph[i]..

5. CNN과 RNN

CNN 고정된 Weight matrix (커널, kernel)을 사용한 선형변환 + 활성화 함수의 구조이다. Input 은 주로 이미지, 픽셀로 이루어진 행렬이다. Kernel은 filter라고도 하며, weight matrix를 의미한다. CNN은 Kernel을 Input matrix 위에서 elementwise 곱연산을 진행하는 conv layer를 가진다. 이 때 Kernel은 stride 값 만큼 움직인다. CNN의 장점 1) parameter축소가 가능하다 CNN이 아니라 기존 ANN연산이었다면, 각 픽셀들이 FC를 이루며 학습해야할 weight (parameter)는 한 layer에 픽셀값만큼이었을 것이다. 하지만 weight matrix로 weight를 공유하기 때문에 weight matri..

3. 딥러닝 학습방법 이해하기

비선형 모델 신경망 (그림) x→o는 하나의 선형 모델이다. $x_1$~$x_d$ 벡터를 $o_1$~$o_p$ 벡터로 만들기 위한 모델은 총 $d$x$p$ , 즉 weight matrix (W)의 차원과 같다. 즉 가중치 행렬은 각 화살표 변환의 집합이라 생각할 수 있다. 활성 함수 (activation function) 신경망은 선형 모델과 활성 함수(activation function)의 합성 함수이다. $\sigma(W^{(l)} x +b^{(l)})$ 활성 함수의 역할은 모델에 **비선형성(nonlinearity)**을 추가한다는 것이다. 비선형성이 필요한 이유 실제 해결하고자 하는 문제는 선형 모델로 풀리지 않는다. 만약 활성화 함수가 선형이라면 그저 신경망을 쌓는 것과 같은 효과일 것이다. 활..

2. 경사하강법 (Gradient Descent)

미분 미분값을 알면 (한 점에서 접선의 기울기를 알면), 어느 방향으로 점을 움직여야 함수값이 증가하는지/감소하는지 알 수 있다. 미분은 변수의 움직임에 따른 함수값의 변화를 측정하기 위한 도구이다. 어떠한 변수가 바뀌면, 얼마나 함수값이 오차가 커지는지 등을 알 수 있고, 이를 통해 오차를 줄이도록 변수를 조정하며 최적화 할 수 있다. 벡터가 입력인 다변수 함수의 경우 각 변수의 편미분을 계산한 gradient 벡터를 이용하여 경사하강/상승법에 사용할 수 있다. $\nabla f=(\partial _{x_1} f, \partial _{x_2} f, ..., \partial _{x_d} f)$ 경사하강법 경사하강법을 사용하여 선형회귀식을 찾는다고 가정해보면, 선형회귀의 목적식은 $||y-X\beta||_..

1. 벡터와 행렬

벡터 벡터의 같은 자리 원소 간의 곱 : Elementwise product, Hadamard product 라고 한다. 벡터는 공간에서 한 점을 나타내며, 원점에서 상대적 위치를 표현한 것이다. 벡터의 노름(norm)은 원점으로부터의 거리를 나타내며, 대표적으로 다음과 같은 두가지가 있다. L1 norm : $||x||_1 = \Sigma|x_i|$ L2 norm (유클리드 거리) : $||x||_2 = \sqrt{\Sigma|x_i|^2}$ 노름의 종류에 따라 기하학적 성질이 달라진다. ‘거리’의 성질이 다르기 때문이다. *기계학습의 목적에 따라 다르게 사용한다는 점 두 벡터 사이의 각도 구하기 : 제2 코사인 법칙에 의해 벡터 사이의 각도를 계산함. $cos\theta =$ ${} \over {||..