Исследование ремейк-классификации признаков HOG и LBP

компьютерное зрение

优秀创作者-戚朕.png

HOG: гистограмма ориентированного градиента

Функция HOG (гистограмма ориентированного градиента) представляет собой метод описания изображения для обнаружения человеческих объектов, предложенный Далалом на конференции CVPR 2005 г. Транссексуал.

принцип

  • Основная идея этой функции заключается в том, что направление градиента локальной области изображения может представлять особенности края и формы области субизображения. На практике изображение делится на небольшие ячейки, и каждая ячейка вычисляет гистограмму направления градиента (или направления края). Чтобы обеспечить инвариантность освещения, гистограмму необходимо нормализовать по контрасту: сгруппировать ячейки в более крупные блоки и нормализовать все ячейки внутри блока. Нормализованные блоки называются дескрипторами HOG. Окончательный вектор признаков формируется путем объединения дескрипторов HOG всех блоков в окне обнаружения.

шаг

  1. Предварительная обработка изображений, такая как масштабирование, гамма-коррекция и т. д.
  2. Вычислите значение градиента каждого пикселя, чтобы получить карту градиента. В цифровом изображении градиент представляет собой разницу между соседними пикселями. Например, на рисунке ниже точка со значением пикселя 136 имеет вертикальный градиент 139-133=6 и горизонтальный градиент 139-134=5. , В соответствии с этим Два значения могут получить силу градиентаgи направление градиентаθ.

  1. Градиентные гистограммы рассчитываются в пределах каждой ячейки 8x8. Как показано на рисунке ниже, в зависимости от силы градиента в областиgи направление градиентаθГистограмма статистического градиента, делящая 180° на 9 интервалов,gВ качестве веса голосуется и подсчитывается направление градиента точек пикселей в области, и получается распределение направлений в области.

  1. Нормализуйте каждый блок 16x16 (т. е. скользящее окно для каждой ячейки 2x2), чтобы уменьшить влияние освещения (среднее значение пикселей) и контраста (дисперсия пикселей).
  2. Получите вектор признаков HOG. Каждый блок рассчитывается для получения вектора признаков с размером интервала 4 * 9 = 36. В зависимости от длины и ширины изображения вектор признаков можно интегрировать и использовать для классификации SVM или CNN.

плюсы и минусы

  • При воспроизведении экранов компьютеров и другого оборудования с низким разрешением во время визуализации будут генерироваться муаровые узоры (как показано на рисунке ниже) из-за интерференционных эффектов.Муаровые узоры имеют очевидные направленные характеристики, которые можно отразить на гистограмме направлений статистики HOG.

  • Подходит для высококачественных экранов/телефонов

использование

# 使用HOG方法提取图像的纹理特征.
img = cv2.imdecode(np.fromfile(img_paths[i], dtype=np.uint8), -1)
img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
img = cv2.resize(img, (207, 194))
# 伽玛变换
img = np.power(img, gamma).astype(np.uint8)
hog = cv2.HOGDescriptor(winSize,blockSize,blockStride,cellSize,nbins)
hist = hog.compute(img, winStride, padding).reshape((-1,))

визуализация

image.png

LBP: гистограмма локального бинарного паттерна

LBP — это простой и эффективный алгоритм выделения признаков для классификации текстур. Оператор LBP был предложен Оджалой и др. в 1996 г., основная статья - «Классификация текстур в оттенках серого с различным разрешением и инвариантность к вращению с локальными бинарными паттернами», пами, том 24, № 7, июль 2002 г. LBP — это сокращение от «локальный двоичный шаблон».

принцип

  • Исходный оператор LBP определяется как в окне 3*3, с центральным пикселем окна в качестве порога, с ним сравнивается значение серого соседних 8 пикселей, если значение окружающего пикселя больше или равно значение центрального пикселя, затем пиксель. Положение точки помечается как 1 и 0 в противном случае. Таким образом, 8 точек в окрестности 3*3 можно сравнить по часовой стрелке, чтобы получить 8-битные двоичные числа (обычно преобразуемые в десятичные числа, то есть коды LBP, всего 256 типов), то есть значение LBP получается центральный пиксель окна, отражающий информацию о Текстуре для этой области.

  • Улучшение: Круговой оператор LBP:

Чтобы адаптироваться к особенностям текстуры различных масштабов и соответствовать требованиям инвариантности оттенков серого и вращения, Оджала и др. улучшили оператор LBP, расширили окрестность 3 × 3 до любой окрестности и заменили квадратную окрестность круглой. домен, улучшенный оператор LBP допускает любое количество пикселей в круговой окрестности радиуса R.

Чтобы сделать вращение LBP инвариантным, двоичная строка вращается. Предполагая, что полученный в начале признак LBP равен 10010000, и вращая его по часовой стрелке, его можно преобразовать в 00001001, что соответствует минимальному значению признака LBP, так что LBP инвариантен к вращению.

  • В приложении чаще всего используется статистическая гистограмма LBP в качестве вектора признаков изображения. Чтобы учесть информацию о местоположении объектов, изображение разбивается на несколько небольших областей, и в каждой небольшой области выполняется статистика гистограмм, аналогично блокам в HOG, и, наконец, гистограммы всех областей по очереди соединяются вместе как вектор признаков для принятия следующей обработки первого уровня.

плюсы и минусы

  • В определенной степени устраняется проблема изменения освещенности, и она обладает вращательной инвариантностью.
  • Текстурная функция имеет небольшой размер и высокую скорость расчета.
  • При неравномерном изменении освещенности соотношение размеров между пикселями нарушается, а также изменяется соответствующий оператор LBP.
  • Введение определения инварианта вращения делает оператор LBP более надежным. Но это также приводит к тому, что оператор LBP теряет информацию о направлении.
  • Классификация ремейков лучше, чем эффект HOG

использование

from skimage.feature import local_binary_pattern
import numpy as np
import cv2
img = cv2.imdecode(np.fromfile(img_paths[i], dtype=np.uint8), -1)
img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# img = cv2.resize(img, (512, 512))
img = img / 255
# 伽玛变换
img = np.power(img, gamma)
tain_imgs.append(img)
lbp = local_binary_pattern(img, n_point, radius, 'uniform')
hist = lbp.flatten()

визуализация

image.png

о нас

  • Триста облаковЭто отличный независимый сторонний поставщик автоматических транзакций и финансовых услуг SaaS, основанный на искусственном интеллекте и стандартизирующий ценообразование автоматических транзакций и автоматический контроль финансовых рисков в качестве основных продуктов;
  • Команда 300 Cloud AI предоставляет высокоточные услуги распознавания ИИ для отраслевых пользователей на основе ведущих в отрасли технологий машинного обучения и обширных данных автомобильной промышленности. Основные области исследований группы включают классификацию изображений, семантическую сегментацию, обнаружение целей, алгоритмы рекомендаций, обработку естественного языка и т. д. Опираясь на ключевые технологии в этой области, команда разработала классификацию транспортных средств, структурированную идентификацию различных карт и центральную консоль. Идентификация данных и другие услуги, а также дальнейшая оптимизация и улучшение в соответствии с потребностями пользователей в отрасли.
  • Команда 300 Cloud AI — разноплановая команда, которая активно расширяется и движется вперед, открыты стажировки/официальные вакансии. Независимо от того, являетесь ли вы студентом, специализирующимся в области искусственного интеллекта, или опытным экспертом по алгоритмам, вы можете получить возможность продемонстрировать свои таланты здесь~
  • Официальный сайт:www.sanbaiyun.com/
    Отправьте свое резюме:hr@che300.com, пожалуйста, укажите от Наггетс ?