비선형 모델 신경망 (그림) x→o는 하나의 선형 모델이다. $x_1$~$x_d$ 벡터를 $o_1$~$o_p$ 벡터로 만들기 위한 모델은 총 $d$x$p$ , 즉 weight matrix (W)의 차원과 같다. 즉 가중치 행렬은 각 화살표 변환의 집합이라 생각할 수 있다. 활성 함수 (activation function) 신경망은 선형 모델과 활성 함수(activation function)의 합성 함수이다. $\sigma(W^{(l)} x +b^{(l)})$ 활성 함수의 역할은 모델에 **비선형성(nonlinearity)**을 추가한다는 것이다. 비선형성이 필요한 이유 실제 해결하고자 하는 문제는 선형 모델로 풀리지 않는다. 만약 활성화 함수가 선형이라면 그저 신경망을 쌓는 것과 같은 효과일 것이다. 활..