Классическая сеть CNN - сводка AlexNet

краткое введение

Я изучаю CNN в последнее время, начиная с самых простых классических сетей, таких как LeNet, и я собираюсь провести более подробное исследование развития CNN и записать учебный контент здесь.

История развития CNN

AlexNet

AlexNet заняла первое место в конкурсе классификации изображений ImageNet 2012 года, мгновенно увеличив количество ошибок в топ-5 более чем на десять процентов. После этого CNN вернулся на сцену истории. Сначала посмотрите на его сетевую структуру:

Это структурная схема, приведенная в статье, она выглядит сложной, давайте упростим ее.

Это раздаточный материал, данный в курсе глубокого обучения Эндрю Нг (обратите внимание, что ввод здесь да {227* 227 * 3}

формат, который отличается от бумажного, но не влияет на структуру сети).

Сетевая структура AlexNet

Conv_1: Сверточный слой, ввод:,использоватьКусокСвертка ядра с шагом, длина и ширина после свертки равны ${\lfloor\frac{227-11}{4}\rfloor+1 = 55}$ , поэтому выходной формат
Max-pooling: ввод как,pool:, размер шага: 2, поэтому длина и ширина после бассейна: ${\lfloor\frac{55 - 3}{2}\rfloor + 1 = 27}$ , вывод:
Conv_2: сверточный слой, ввод:,использоватьКусок, размер шага, прокладка такая же. Есть два вида одинаковых, которые обычно используются в Padding:
- SAME padding:
  
  ${outheight = \lceil\frac{float(inheight)}{float(strides[1])}\rceil}$
  
  ${outwidth =\lceil\frac{float(in_width)}{float(strides[2])}\rceil}$
- VALID padding:
  
  ${outheight = \lceil\frac{float(inheight - filterheight)}{ float(strides[1])}\rceil + 1}$ ${outwidth = \lceil\frac{float(inwidth - filterwidth )}{float(strides[2])}\rceil + 1}$
Итак, на данный момент Padding есть как слева, так и справа.. Выходной результат:.
Max-pooling: Введите как:, бассейн есть, размер шага, длина: ${\lfloor\frac{27 - 3}{2}\rfloor + 1 = 13}$ , вывод:
Conv_3,Conv_4,Conv_5: Оба входа и выхода, размер шага, ядро, ОтступыSame.
Max-pooling:входить, бассейн:, размер шагаВыход, это,характеристическая переменная.
FC: Полностью связанный слой имеет два скрытых слоя, начиная с ${9216 \Rightarrow 4096 \Rightarrow 4096 \Rightarrow_{softmax} 1000}$

Объяснение высокой производительности AlexNet

Нелинейная функция активации:ReLU
Способы предотвращения переобучения:Dropout,Data augmentation
Обучение работе с большими данными: миллионыImageNetданные изображения
Другое: реализация GPU,LRNИспользование слоев нормализации

ReLU

преимущество:

ReLUПо сути, это кусочно-линейная модель, и прямой расчет очень прост, без необходимости таких операций, как экспоненты;

ReLUЧастная производная также очень проста, градиент распространяется обратно, нет необходимости в таких операциях, как возведение в степень или деление;

ReLUПроблема расхождения градиента возникает непросто.Когда функции активации Tanh и Logistic находятся на обоих концах, производная стремится к нулю, а градиент более приблизительно равен 0 после многоуровневого умножения;

ReLUПравая сторона закрыта, так что многие выходы скрытого слоя равны 0, то есть сеть становится разреженной, что действует как регуляризация, аналогичная L1, которая может в определенной степени уменьшить переоснащение.

недостаток:

Левая сторона полностью закрыта, легко заставить некоторые скрытые узлы никогда не переворачиваться, поэтому они появляются позжеpReLU,random ReLUждать улучшения иReLUлегко изменит распределение данных, поэтомуReLUдобавить послеBatch NormalizationЭто также широко используемый метод улучшения.

Data Augmentation

Из исходного изображения (256, 256) произвольно обрежьте несколько изображений (224, 224). [Трансформация перевода, обрезка]

Отразите изображение по горизонтали. [Преобразование отражения, флип]

Добавьте к изображению случайное освещение. [Освещение, преобразование цвета, дрожание цвета]

Когда AlexNet обучается, обработка по увеличению данных:

Случайный урожай. Во время обучения произвольно кадрируйте изображения 256*256 до 224*224, а затем разрешите отражение по горизонтали, что эквивалентно умножению выборок на ${((256-224)^2)*2=2048}$ .

Во время теста было выполнено 5 кропов в верхнем левом, верхнем правом, нижнем левом, нижнем правом и среднем, а затем перевернуто, всего 10 кропов, а затем результаты усреднялись. Автор сказал, что без случайной обрезки большие сети в основном переобучаются (при существенном переобучении).

сделать для пространства RGBPCA, а затем выполнитеГауссово возмущение. В результате процент ошибок снизился еще на 1%.

Dropout

Объединение нескольких обучающих моделей может уменьшить ошибку теста, но в нейронных сетях обучение каждой модели занимает много времени и стоит дорого.DropoutПоместив в скрытый слойrateВероятность случайным образом устанавливает выход некоторых нейронов равным 0, и эти нейроны не участвуют ни в прямом, ни в обратном распространении. Таким образом, каждый раз при представлении входных данных нейронная сеть пробует другую структуру, но распределяет веса между всеми ними. Поскольку существование нейронов не может зависеть от других конкретных нейронов, этот метод уменьшает сложные межадаптационные отношения нейронов. Просто разделите на ${\frac{1}{1-rate}}$ .

Local Response Normalization

Принцип нормализации локального ответа заключается в том, чтобы имитировать феномен торможения биологически активными нейронами соседних нейронов (латеральное торможение).

По сути, этот слой также предназначен для предотвращения насыщения функции активации.

является сферой влияния нейрона.

${k=2,\alpha=10^{-4},\beta=0.75}$ являются гиперпараметрами.

Использованная литература:

ImageNet Classification with Deep Convolutional Neural Networks
[Оригинал] # Обзор глубокого обучения # LeNet, AlexNet, GoogLeNet, VGG, ResNet
Сверточные нейронные сети — история эволюции] От LeNet до AlexNet
Нормализация локального ответа глубокого обучения LRN (нормализация локального ответа) Понимание
Сверточная нейронная сеть