해당 신경망은 요즘에 비하면 상대적으로 적은 변수를 가지고 있습니다.다만, 해당 논문에서는 요즘과는 다르게 풀링층 뒤에 비선형함수를 적용했습니다. 비선형함수도 ReLU 가 아닌 Sigmoid 를 적용했습니다. 더 자세한 내용은 논문 섹션 2, 3에 기재되어 있습니다.AlexNetAlexNet 의 목적은 이미지를 1000개에 해당하는 클래스로 분류하는 것이였습니다. AlexNet 의 네트워크 구조는 아래와 같습니다.
LeNet 에 비해서 굉장히 많은 변수를 가지고 있습니다. 또한, 활성화 함수로 ReLU 를 사용했습니다. “합성곱을 같게 가져간다 (same)” 라는 말은 이전 층의 높이와 넓이를 같게 만드는 패딩을 가진다는 것과 같은 말입니다.VGG-16AlexNet 의 복잡한 구조에 비해, VGG Net 은 더 간결한 구조를 가지고 있습니다.
이 모델의 특징은 모든 합성곱 연산은 3 x 3 의 필터를 가지고 패딩 크기는 2, 스트라이드는 1로 하고, 2 x 2 픽셀씩 최대 풀링하는 것입니다.. 산출값의 높이와 넓이는 매 최대 풀링 마다 1/2씩 줄어들며, 채널의 수는 두배 혹은 세배로 늘어나게 만드는 것이 VGG 모델의 체계적인 점입니다.다만, 훈련시킬 변수의 개수가 많아 네트워크의 크기가 커진다는 단점이 있습니다.
Gradient-based learning applied to document recognition http://yann.lecun.com Yann LeCun, 1998LeNet 의 논문입니다.
ImageNet Classification with Deep Convolutional Neural Networks https://papers.nips.cc Alex Krizhevsky, 2012AlexNet 의 논문입니다.
[1409.1556] Very Deep Convolutional Networks for Large-Scale Image Recognition https://arxiv.org Karen Simonyan, 2014VGG 의 논문입니다.
comment