Предисловие:
В компьютерном зрении есть много профессиональных терминов, таких как априорные знания, семантическая информация, встраивание, голова, шея и т. д. Объяснение этих терминов невозможно напрямую найти в Интернете, а их понятия и значения не определены ни в одной статье, поэтому читатели, которые впервые слышат эти термины, будут очень запутанными.
Кроме того, для читателей, которые еще не установили систему знаний о компьютерном зрении, также сложно понять пространство функций, тонкую настройку, предварительное обучение, объединение и т. д.
В этой статье представлено много контента, который читатели не могут понять в других местах.Благодаря этому контенту, я считаю, что читатели могут понять компьютерное зрение на более глубоком уровне и создать базовую систему знаний о компьютерном зрении.
Обратите внимание, чтобы вовремя получать больше обзорных статей о технологиях компьютерного зрения.
позвоночник, голова, шея и тонкая настройка
Взяв в качестве примера сверточную нейронную сеть для классификации изображений, сеть делится на две части.Первая часть состоит из сверточного слоя, слоя нормализации, слоя активации и слоя объединения.После слоя суммирования, слоя активации и слоя объединения, он входит в полносвязный слой, и после нескольких полных соединений выводится значение вероятности каждой категории.
Здесь стек предыдущих сверточных слоев, слоев нормализации, слоев активации и слоев объединения принадлежит магистральной сети. Означает часть туловища нейронной сети, эту часть также называют сетью извлечения признаков.
Стек полносвязных слоев, следующих за ним, принадлежит голове. Имеется в виду голова нейронной сети, реализующая предсказание модельной задачи, называемая предикторной головой, и эта часть сети также называется классификационной сетью.
В качестве примера возьмем изображение в YOLO_V4 при обнаружении цели.
Как показано на рисунке выше, после магистральной пирамиды часто строится пирамида признаков, и в части пирамиды признаков выполняется некоторая обработка, например многомасштабное слияние, а затем прогнозируются выходные данные пирамиды признаков. Таким образом, эта часть пирамиды признаков располагается между позвоночником и головой, называемой шеей, где Плотное предсказание — это голова.
Что касается магистральной сети, то есть обычных классических сетей, таких как VGG, ResNet, MobileNet, ShuffleNet, DenseNet и т. д., когда в модели упоминается, что магистраль использует VGG, это означает, что используется магистральная часть VGG, исключая руководитель ВГГ.
Вот объяснение, почему это так. Существует множество объяснений нейронных сетей, одно из которых заключается в следующем: считается, что нейронные сети извлекают признаки, традиционный метод компьютерного зрения заключается в том, чтобы искусственно задавать определенные признаки, а затем классифицировать их. Такие функции, как HOG, LBP, после извлечения функций используют классификатор для классификации этих функций, например классификатор SVM.
Магистральная часть здесь рассматривается как сеть выделения признаков, а головная часть рассматривается как классификационная сеть, поэтому часть выделения признаков можно использовать совместно, и их суть заключается в извлечении признаков изображения, а сеть классификации соответствует для конкретной задачи, такой как классификация кошек и собак, классификационная сеть должна классифицировать кошек и собак по извлеченным признакам.
В этом параграфе также объясняется принцип тонкой настройки.Используйте предварительно обученную основу для построения соответствующей сети классификации для своей задачи, заморозьте параметры основы во время обучения и обучайте только параметры сети классификации. Это связано с тем, что предварительно обученная магистраль уже имеет хорошие возможности извлечения признаков, поэтому для ваших собственных изображений сети нужно только научиться классифицировать извлеченные признаки в соответствии с определенными вами категориями.
Препроцесс и постпроцесс
Preprocess — это предварительная обработка, и перед отправкой в нейросеть изображение необходимо обработать.
Обычная обработка заключается в использовании изменения размера в opencv для масштабирования всех изображений до одинакового размера и установке меток сети в соответствии с метками набора данных. Кроме того, при необходимости выполняется также аугментация данных, такая как регулировка насыщенности изображения, зеркальное отображение, добавление шума, случайное маскирование и т. д.
Необходимость предварительной обработки: большинство нейронных сетей сглаживают данные после магистрали (то есть превращают четырехмерный тензор в двумерный), а затем выполняют полное соединение.В это время количество входных нейронов в полносвязный слой сглаживается. , Если размер входного изображения отличается, количество входных нейронов в полносвязный слой не может быть одинаковым, и будет сообщено об ошибке. Кроме того, для других подобных частей обработки (за исключением нескольких) без полностью связанного слоя размер вывода после магистрали также должен быть согласованным. Постпроцесс относится к постобработке результатов прогнозирования сети.Для обычных сетей классификации постобработка не требуется, но для таких задач, как обнаружение целей и семантическая сегментация, необходимо обрабатывать выходные данные сети и визуализировать прогнозируемые результаты через образы. .
Например, YOLO при обнаружении цели выводит тензор 7x7x30 и выводит 98 кадров предсказания, но фактическое изображение не имеет такой цели, поэтому требуется обработка, такая как NMS, для удаления некоторых необоснованных кадров предсказания, и мы не можем напрямую посмотреть, есть ли эти поля предсказания точны, вам нужно отобразить их на исходном изображении, чтобы интуитивно почувствовать эффект предсказания.
Предыдущие знания
существует"Краткое изложение общих идей бумажных инноваций", я упомянул, что об обнаружении определенного класса мы можем добавить много предварительных знаний для этой категории, в "Краткое изложение методов увеличения данных», я упомянул, что суть аугментации данных заключается в искусственном введении априорных визуальных знаний человека. существует"Краткое изложение технологии визуализации CNN (1) Визуализация карты объектов«Я упомянул, что так называемое улучшение сети — это субъективное улучшение людей, а субъективность людей здесь — это априорное знание. Предварительное знание здесь относится к тому, на что люди обращают внимание о том, как распознавать изображение или как распознавать класс, а введение предварительных знаний относится к разработке чего-то, чтобы сеть обращала внимание и на этот контент. Например, многомасштабное слияние в пирамиде признаков, люди думают, что большие объекты должны быть обнаружены с низким разрешением, а маленькие объекты должны быть обнаружены с высоким разрешением, чтобы сеть предсказывала объекты разных размеров на разных уровнях пирамиды признаков. . Люди также думают, что если большая цель обнаруживается при низком разрешении, а маленькая цель обнаруживается при высоком разрешении, то при низком разрешении маленькая цель все еще существует, и здесь она считается фоном. в качестве фона рассматривается крупная цель.Фон является необоснованным, и предлагается метод обработки ASFF, который увеличился на 5-10 процентных пунктов.
Краткое изложение технологии пирамиды функций
Например, когда люди обращают внимание на одну вещь, они автоматически игнорируют другие вещи, которые видят их глаза, поэтому предлагается механизм внимания. Например, даже имея только верхнюю часть тела, люди все равно могут узнавать людей, с которыми они знакомы, поэтому предлагаются методы улучшения данных, такие как случайная окклюзия, чтобы сеть могла правильно распознавать окклюзию.
Например, как люди узнают поведение при игре в баскетбол, люди узнают на основе серии комбинаций баскетбола, жестов стрельбы, прыжков тела, движений баскетбола и т. д. Поэтому, как заставить сеть уделять больше внимания этим функциям, предлагает Non -Местный.
embedding
В трансформере появилось эмбеддинг, а в автоэнкодере появилось эмбеддинг.Там тоже много мест упомянутых.Как понять эмбеддинг?
Здесь задействована другая интерпретация нейронных сетей. Считается, что нейронные сети отображают изображения из высокоразмерного пиксельного пространства в низкоразмерное пространство встраивания, то есть встраивание, которое также можно назвать пространством признаков. Пространство признаков здесь представлено встраиванием (в виде вектора).
В кодере сеть отображает изображения во вложения, то есть многомерные изображения многократно отображаются нелинейными функциями, которые могут быть представлены низкоразмерными вложениями.В декодере сеть отображает низкоразмерные вложения. вернуться к изображениям.
Поэтому встраивание можно рассматривать как сжатое представление некоторых признаков.
Взяв в качестве примера повторную идентификацию пешехода, автор считает, что даже при разных углах съемки, если это один и тот же человек, вывод нейронной сети при определенном методе измерения расстояния будет одинаковым, а разные люди очень близки. в методе определенного расстояния Таким образом, можно судить о том, находится ли расстояние между двумя вложениями в пределах порогового диапазона по определенной метрике расстояния, чтобы определить, являются ли они одним и тем же человеком.
feature map
Буквально: карта характеристик.
Согласно предыдущему объяснению, нейронная сеть отображает изображение из пространства пикселей высокой размерности в пространство признаков низкой размерности.Это отображение осуществляется посредством послойной свертки и активации, и свертка имеет возможность извлекать Особенности.
Например, при цифровой обработке изображений мы используем оператор Собеля для обнаружения контура, и оператор Собеля можно рассматривать как один из случаев свертки 3x3.В этом случае он может извлечь контур изображения, который находится в В других случаях могут быть извлечены другие функции, поэтому процесс свертки — это процесс извлечения функций, а выходные данные после сопоставления функций, извлеченных с помощью функций свертки и активации, называются картами функций.
объединение
Затем приведенное выше объяснение представит объединение.
В изображении много шума и избыточной информации. Шум создается аппаратными факторами, такими как схемы датчиков и материалы, во время съемки камерой или во время передачи. Излишняя информация относится к содержимому, которое не имеет отношения к конкретным задачам.
Когда мы вводим все изображение, нам нужно удалить этот шум и избыточную информацию. Мы думаем, что эта избыточная информация и шум не являются признаками.Во время процесса свертки и отображения в нейронной сети будет сгенерировано относительно низкое значение ответа, поэтому мы можем выбрать наибольшее значение ответа для входа на следующий слой через максимальное объединение, потому что мы Считается, что только функции производят большие собственные значения, также известные как значения отклика, в процессе свертки.
Кроме того, взяв в качестве примера Собеля, при свертывании фона с практически одинаковым значением пикселя выход свертки почти равен 0, в то время как свертка Собеля края контура выводит большее значение.
Таким образом, нейронная сеть удаляет шум и избыточную информацию посредством многократного максимального объединения. Вот почему основная часть нейронной сети в основном представляет собой максимальный пул, а не средний пул, потому что средний пул будет продолжать передавать эту избыточную информацию и шум на следующий уровень.
Более подробное техническое описание пулинга см.Краткое изложение технологии объединения"статья.
семантическая информация
Цифровые изображения состоят из значений пикселей, которые изначально являются комбинацией чисел, но такие комбинации образуют изображения, такие как кошки, собаки, баскетбол, Микки Маус, глаза, нос и т. д. Следовательно, семантическая информация относится к содержанию изображения, т.е. изображениям, таким как нос, глаза.
Суммировать
В этой статье представлено много контента, который читатели не могут понять в других местах.Благодаря этому контенту, я считаю, что читатели могут понять компьютерное зрение на более глубоком уровне и создать базовую систему знаний о компьютерном зрении.
Некоторые другие технические термины будут обобщены и объяснены позже.
Другие статьи
Краткое изложение методов недообучения и переобучения
Краткое изложение методов нормализации нейронной сети
Краткое изложение методов оптимизации функций
Краткое изложение методов увеличения данных
Краткое содержание технологии визуализации CNN
Резюме эволюции структуры CNN - классическая модель
Резюме эволюции структуры CNN - упрощенная модель
Резюме эволюции структуры CNN - принципы проектирования
Краткое изложение технологии объединения
Сводка по немаксимальному подавлению
Краткое изложение методов чтения английской литературы
Краткое изложение общих идей бумажных инноваций
Эта статья взята из серии технических резюме технического руководства по общедоступному аккаунту CV.