he 초기화
[Pytorch] torch.nn.init 초기화
0. 개요 torch.nn.init 안에 들어 있는 xavier 초기화와 kaiming 초기화에 대해 서술한다. 1. 가중치 초기화 기법 딥러닝에서 layer 를 여러 개 쌓아 DNN 을 만들면 모델의 복잡도가 높아져서 다양한 문제를 해결할 수 있게 된다. 그러나 layer 가 깊어질수록 역전파되는 gradient 가 불안정해진다는 단점이 생긴다. gradient 가 너무 작아지거나 폭주하는 문제가 발생할 수 있는데, 그러면 당연히 모델 학습이 제대로 이루어지지 않는다. 이 문제를 해결하기 위해 여러 방법이 제안되었는데, 이 글에서는 layer 가중치 초기화 기법에 대해 서술하고자 한다. 불안정한 gradient 흐름의 원인이 각 층의 출력과 입력에 대한 분산이 서로 다르기 때문이라는 주장이 있었다. 그..