[Deep Learning] 6. 가중치의 초기값을 설정하는 방법

Date: 2025.02.06 Updated: 2025.02.06

태그: AI neural network weight initialization methods weight initialization deep learning

🎯 가중치의 초기값을 설정하는 방법

가중치의 초기값을 설정할 때 어떤 부분을 고려해야 하는지 살펴보자.

입력: x = [0.1, 0.2, 0.3]
가중치: w = [0.4, 0.5, 0.6]
선형변환: a = 0.1*0.4 + 0.2*0.5 + 0.3*0.6 = 0.32
활성화값: z = tanh(0.32) = 0.31

sigmoid 함수의 활성화 값은 0에 가까운 값이 많다.

이미지 출처: 밑바닥부터 시작하는 딥러닝 1권 - sigmoid 함수의 활성화 값

표현력 제한 문제 발생: 다수의 뉴런이 거의 같은 값을 출력해서 한개의 뉴런을 쓰는 것과 차이가 없다.
- sigmoid, ReLU, tanh 모두 표현력 제한 문제가 발생한다.

이미지 출처: 밑바닥부터 시작하는 딥러닝 1권 - 표현력 제한 문제

각 층의 활성화 값들을 광범위하게 분포시키는 것이 목표

이미지 출처: 밑바닥부터 시작하는 딥러닝 1권 - sigmoid 함수에 적합한 Xavier 초기값

sigmoid가 아닌 ReLU 함수를 사용하는 경우에 사용하는 초기값

이미지 출처: 밑바닥부터 시작하는 딥러닝 1권 - ReLU 함수에 적합한 He 초기값

std 0.01 일때: 학습이 전혀 이뤄지지 않는다.
- 활성화 값의 분포처럼 순전파때 너무 작은 값으로 흐르고 역전파때 기울기가 작아져 가중치가 거의 갱신되지 않음.
He/Xavier: 학습이 순조롭게 이루어짐
- He는 Xavier보다 학습 진도가 더 빠름.

이미지 출처: 밑바닥부터 시작하는 딥러닝 1권 - MNIST 데이터셋으로 본 가중치 초기값 비교