предисловие
Развитие сверточных нейронных сетей в основном направлено на решение задач человеческого зрения, но сейчас оно используется и в других направлениях. Процесс разработки в основном идет от Lenet5->Alexnet->VGG->GooLenet->ResNet и так далее.
Lenet5
Сверточные слои были изобретены в 1980-х годах, но сложные сети нельзя было построить из-за аппаратных ограничений, и это не практиковалось до 1990-х годов.
В 1998 году ЛеКун предложил комбинацию сверточных слоев, объединенных слоев и полносвязных слоев для решения проблемы распознавания рукописных цифр. Эффект в это время уже очень хороший, что можно сравнить с другими классическими моделями машинного обучения. Архитектура следующая: вход 32 x 32, функции извлекаются путем свертки, затем понижающей дискретизации, свертки и снова понижающей дискретизации, за которой следует полное соединение и соединение по Гауссу.
Alexnet
Позже экспоненциальное увеличение доступности структурированных данных и вычислительной мощности позволило еще больше усовершенствовать модель, особенно с появлением набора данных с открытым исходным кодом Imagenet, состоящего из миллионов помеченных изображений.
В конкурсе LSVRC 2012 года Хинтон и его ученик Алекс Крижевский разработали глубокую сверточную сеть Alexnet, которая по структуре похожа на Lenet5, но сверточный слой глубже, а общее количество параметров составляет десятки миллионов. Структура следующая, с несколькими свёрточными слоями, а глубина каждой сети достигает сотен.
VGG
Сильный претендент на участие в конкурсе LSVRC Challenge 2014, модели VGG, предложенной группой визуальной геометрии Оксфордского университета. По сравнению с Alexnet, он в основном уменьшает ядро свертки и вместо этого использует 3x3. На следующем рисунке показана структура VGG, общая структура такая же, но конфигурация свертки может быть другой. Функция активации использует ReLU, объединение использует максимальное объединение, и, наконец, softmax используется для вывода вероятностей.
GoogLenet
В 2014 году сетевая модель победила в конкурсе LSVRC Challenge, в котором впервые приняли участие крупные компании, и с тех пор его выиграли крупные компании с огромными бюджетами.
GoogLenet в основном состоит из 9 начальных модулей с небольшими изменениями. Структура начального модуля следующая:
Количество параметров GoogLenet сократилось до более чем 10 миллионов, а точность повысилась по сравнению с Alexnet, а погрешность снизилась с 16,4% до 6,7%.
В 2015 году с публикацией статьи «Переосмысление исходной архитектуры для компьютерного зрения» исследователи Google выпустили новую начальную архитектуру, которая в основном решает проблему ковариационного сдвига, в которой нормализация применяется к исходному входному и выходному значению каждого слой. Кроме того, размер ядра свертки также изменился, а общая глубина сети и декомпозиция свертки были увеличены.
ResNet
В 2015 году ResNet был предложен доктором Хе Юмином из Исследовательского института Microsoft, который в настоящее время является ученым-исследователем искусственного интеллекта в Facebook. ResNet имеет блестящий послужной список и выиграл сразу 5 первых мест в том году. Модули в сети ResNet показаны ниже:
Первая свертка 1 x 1 в части свертки модуля уменьшает 256-мерное до 64-мерного, затем переходит к слою фильтра 3 x 3 и, наконец, восстанавливает 256-мерное с помощью свертки 1 x 1. Форма комбинации примерно следующая.
------------- Рекомендуем прочитать ------------
Зачем писать «Анализ проектирования ядра Tomcat»
Резюме моей статьи за 2017 год — машинное обучение
Резюме моих статей за 2017 год — Java и промежуточное ПО
Резюме моих статей 2017 года — глубокое обучение
Краткое изложение моих статей за 2017 год — исходный код JDK
Резюме моей статьи за 2017 год — обработка естественного языка
Резюме моих статей 2017 года — Java Concurrency
Поговори со мной, задай мне вопросы:
Добро пожаловать, чтобы следовать: