딥 러닝 기초(3)

  • by

활성화 함수

활성화 함수 = 전이 함수 또는 비선형성이라고도합니다.

이는 활성화 함수가 가중치의 선형 결합을 비선형 모델로 만들기 때문입니다.

– 활성화 함수는 각 퍼셉트론 내 계산의 마지막 단계에 배치되어 뉴런이 발화할지 여부를 결정합니다.

Q. 단지 가중을 계산하여 출력해도 되지만, 굳이 활성화 함수를 사용하는 이유는?

A. 활성화 함수가 없으면 신경망에 비선형성을 도입할 수 있습니다.

– 비선형성이 없으면 아무리 층수가 많아도 MLP와 Perceptron은 변하지 않는다.

– 활성화 함수를 출력값을 특정 구간으로 제약하는 효과도 있다.

선형 전달 함수(Linear transfer function)

– 항등 함수(identity function)라고도 불리는 선형 전달 함수는 입력을 그대로 출력하는 함수이며, 실질적으로 활성화 함수가 없는 효과

$$activation(z) = z = wx+b$$

– 신경망의 층수가 많아도 선형 활성 함수가 아니면 겨우 가중 평균의 배율을 조정하는 효과, 입력에 비선형성을 도입할 수 없다

– 두 개의 선형 함수의 합성 -> 여전히 선형 함수 => 신경망에 비선형 활성화 함수를 도입하지 않으면 신경망의 계층 수를 늘려도 학습할 수 없습니다.

Heaviside step function(바이너리 분류)

-step function output => 0 or 1 ( input x>0 : output =1, else : output = 0)

– 참 또는 거짓, 통과 또는 실패와 같은 결과를 예측하는 이진 분류 문제에 주로 사용됩니다.


step function

$$ g: 활성화 함수, 가중치 z = \sum x_i*w_i +b 의 경우 \hat{y} = g(x) $$

Sigmoid/Logistic Function

-Sigmoid : 바이너리 분류에서 두 클래스의 확률을 찾는 데 자주 사용됩니다.

모든 입력값을 0~1사이의 구간으로 바꾸어 주므로, 극단적인 값이나 옐로우값을 제거하지 않고 처리 가능.범위가 ($-\infty~+\infty$)인 연속 변수를 0~1 사이의 확률로 변환

-step function과 달리 합격 확률 or 불합격 확률 등을 구할 때 사용

-그래프가 S형으로 보여 S-Shape curve라고도 불린다


$$\sigma(z) = 1/1+e^-z$$

(Python 코드)

import numpy as np

def sigmoid(X) :

return 1/(1+np.exp(-x))