Заметки о сверточных нейронных сетях

Фундаментальный

filter (фильтр: нейроны с фиксированными весами, могут быть многомерными mnКоличество k (длина × ширина × толщина) равно выходной глубине. Каждый фильтр фокусируется только на одной функции/функции

Данные --> прямое распространение для получения потерь --> параметры обновления обратного распространения

Основной задачей сверточной нейронной сети является задача классификации.
Поисковые задачи или рекомендации, такие как поиск цветов той же категории, что и определенный цветок, какие вещи похожи на этот и рекомендации того же стиля одежды, что и Taobao.

Обнаружение делает две вещи, во-первых, чтобы найти коробку, нам нужно знать, что за вещь является объектом. Во-вторых, что это за предмет в коробке. Классификация и регрессия выполняются вместе. Академическое сообщество также очень обеспокоено этим Обнаружением.
Сегментация: Обрежьте каждый объект на картинке до него.

Приложениям для обнаружения, таким как осмотр окружающих объектов беспилотными автомобилями, рекомендуется использовать видеокарты для выполнения таких задач.

Операции извлечения признаков.

Самое важное в распознавании жестов — расположение ключевых точек.

Определение клеточных мутаций, распознавание шрифтов, распознавание логотипов, распознавание номерных знаков.

Компьютер для описания картинки CNN+LSTM

Слияние стилей изображения

Слева — классическая нейронная сеть, а справа — сверточная нейронная сеть.

Состав сверточной нейронной сети

Извлечение признаков через фильтр.
То, что мы получаем после слоя CONV, называется картой объектов, которая представляет собой общее представление исходного изображения.

Глубина фильтра должна быть такой же, как и глубина предыдущего слоя, связанного с ним. Соответствующие фильтры извлекают соответствующие карты объектов.

Нашим результатом является суммирование 6 карт признаков, полученных с помощью 6 фильтров.

Извлечение признаков выполняется на полученной карте признаков для получения карты признаков следующего слоя.

Сосредоточьте исходные функции шаг за шагом, исходное изображение --> функции низкого уровня --> функции среднего уровня --> функции высокого уровня.

найти внутренний продукт

параметр

Шаг 2 означает, что мы получаем 9 ящиков. Если шаг слишком мал, будет слишком много кадров. Если шаг слишком велик, часть информации на изображении будет упущена. Насколько велик шаг?

По сравнению с пикселем № 1, пиксель № 2 использовался нами дважды, поэтому дает ли пиксель № 2 больше информации для карты объектов, чем пиксель № 1? Если мы хотим, чтобы пиксель № 1 пиксель также Предоставьте немного больше информации, что нам делать? Вы можете использовать параметр заполнения, чтобы добавить слой 0 к периферии исходной входной матрицы.

Рассчитайте размер вывода на основе размера ввода.

совместное использование параметров

В случае полносвязного слоя необходимо обучить много весов. Очень важной особенностью сверточных нейронных сетей является совместное использование весов.

Формула расчета размера выходного слоя

Pooling Layer

Концентрация карты объектов также называется даунсэмплингом. Два метода сжатия: среднее и максимальное.

После полностью связанного слоя в конце получаются некоторые окончательные веса, и эти веса можно использовать для классификации или регрессии.

Прямое распространение свертки

Размерность вектора X. Первое число представляет 0-й номер выборки пакетных входных данных (наши входные данные вводятся пакетами), второе число представляет цветовой канал, а третье и четвертое измерения представляют собой большую сумму изображения. , ширина. Глубина фильтра должна быть такой же, как входная глубина предыдущего слоя.

Обратное распространение свертки

Объединенное обратное распространение

средний использует метод амортизации, max сохраняет только исходное максимальное значение, а другие позиции заполняются 0