Овладейте принципом обнаружения изображений с помощью SIFT.
Алгоритм SIFT также называется алгоритмом сопоставления масштабно-инвариантных признаков, Алгоритм SIFT разбивается на следующие четыре шага:
- Обнаружение экстремумов масштабного пространства: поиск местоположений изображения во всех масштабах. Потенциальные точки интереса, не зависящие от масштаба и вращения, идентифицируются дифференциальной функцией Гаусса.
- Локализация ключевых точек: в каждом потенциальном местоположении местоположение и масштаб определяются хорошо подобранной моделью. Ключевые точки выбираются в зависимости от того, насколько они стабильны.
- Определение ориентации: назначьте одну или несколько ориентаций каждому местоположению характерной точки на основе ориентации локального градиента изображения. Все последующие операции над данными изображения преобразуются относительно ориентации, масштаба и положения характерных точек, тем самым обеспечивая инвариантность к этим преобразованиям.
- Описание ключевой точки: В окрестностях каждой ключевой точки измерьте градиент местоположения изображения в выбранном масштабе. Эти градиенты преобразуются в представление, которое допускает относительно большие локальные деформации формы и изменения освещения.
Обнаружение экстремумов масштабного пространства
Построить масштабное пространство Под шкалой здесь можно понимать степень размытости изображения, которая является степенью миопии глаза. Чем больше масштаб, тем меньше деталей.Функция SIFT надеется извлечь информацию во всех масштабах, поэтому масштабное пространство строится для изображения, то есть изображение сглаживается с использованием различных проверок сглаживания. Поэтому сглаживающее ядро здесь является ядром Гаусса, а пространственный масштаб определяется масштабом ядра Гаусса.
Где l — исходное изображение, * — символ свертки, соответствующий масштабному изображению под масштабом. является гауссовым ядром.
Масштабное пространство описывает признаки разной степени размытия, но не описывает размер изображения, поэтому в данной работе масштабное пространство и пирамида изображений объединены. Пирамида изображения получается путем постепенного сглаживания изображения с понижением частоты дискретизации. Пусть диапазон вариации мезомасштаба каждого слоя пирамиды (октавы) равен, каждый слой пирамиды измеряет s масштабов, тогда диапазон масштабов t-го слоя пирамид равен, первое изображение пирамиды первого слоя уменьшено башня верхнего уровня в среднем масштабе, коэффициент понижения дискретизации равен 0,5. Коэффициент изменения многоуровневой шкалы на каждом уровне пирамиды равен, шкала n-го уровня такова, что шкала от основания пирамиды до вершины непрерывна.
Экстремумы DoG
Теперь, когда изображение изменено на масштабное пространство, я надеюсь найти в этом пространстве более значимую точку, то есть точку с явным изменением, то есть точку, привлекающую ваше внимание в процессе постепенного размытия. на изображении эта точка не выделяется, можно определить по масштабу Отражается изменение тренда по оси, то есть экстремальное значение градиента по оси масштаба. Вычисление градиента по оси масштаба – это разность изображения по оси масштаба
Здесь DoG приблизительно равен нормализованному по масштабу оператору Лапласиана Гаусса, а нормированный по масштабу оператор Лапласа оператора Гаусса может быть более стабильным, чем другие операторы обнаружения углов, такие как градиент, фокальные функции Гессе или Харриса.
Теперь нам нужно найти точку экстремума, и найти значение экстремума в пространстве DoG, то есть точка, которая больше или меньше окружающих точек, считается ключевой точкой. Поскольку DoG представляет собой стопку дифференциальных изображений, окружение здесь, конечно же, является трехмерным окружением, включая в общей сложности 26 смежных точек.
Теперь по оси шкалы шаг за шагом находим экстремальное значение на соответствующей шкале. Теперь мы смотрим на пиксель изображения вдоль оси масштаба, и оно становится одномерным изображением.
В каждой пирамиде есть изображения уровня s, то есть шкалы s. Мы хотим найти крайние точки на шкалах s, поэтому должно быть s+2 слоев изображений DoG, потому что этот процесс трехслойный. сравнение данных. Изображение DoG получается путем разности двух слоев изображений, поэтому для изображения DoG слоя s+2 требуется изображение в масштабе слоя s+3.
Следовательно, изображение в масштабе s+3 должно рассчитываться на каждом уровне пирамиды.
Таким образом, мы примерно находим ключевые точки из пространства DoG. Однако для дальнейшего уточнения результатов их необходимо подвергнуть скринингу, чтобы удалить шумовые точки.
убрать отвлекающие факторы
И LoG, и DoG подвержены влиянию краев при обнаружении ключевых точек.
Удалить интерференцию 1: Меньшие экстремумы
Конечно, значение найденной точки экстремума можно выполнить и напрямую, но для более точного позиционирования ключевой точки выполняется подгонка 3D квадратичной функции (приближение к наиболее оптимизированному методу Нибтона), затем смотрите значение функции . Дифференциальное расширение каждой из ключевых точек
где x — расстояние от ключевой точки. и представляют значение и первую производную и вторую производную троичной функции в ключевой точке соответственно. Это расширение представляет собой трехмерную квадратичную кривую, аппроксимированную вокруг ключевых точек, и производная равна нулю, когда найдено экстремальное значение. тогда:
Экстремальное значение в это время равно
пункты исключены из текста.
Удаление помех 2: краевой шум
Тенденция изменения кривой в одномерном случае может отражаться кривизной. Затем при определении того, является ли точка максимума краевым шумом, можно выбрать два профиля с наибольшим и наименьшим изменением поверхности и оценить кривизну кривой профиля в этой точке.Чем больше кривизна, тем круче кривизна, и чем меньше кривизна, тем сглаженнее.Для блоба Для региона, то есть горы, идеальное состояние - чтобы кривизна в любом направлении была одинакова и относительно велика. Линия хребта или ребро будут медленно изменяться вдоль линии, то есть кривизна мала, а изменение направления вертикальной линии хребта будет более значительным, а кривизна будет больше. Соотношение двух кривизн можно использовать, чтобы определить, является ли это пиком или линией хребта.
Для двумерной поверхности матрица моментов второго порядка в точке поверхности, то есть матрица Гессе, описывает тенденцию изменения вокруг точки. Грубо говоря, матрица моментов второго порядка является ковариационной матрицей бинарной функции в этой точке. Собственное значение ковариационной матрицы соответствует проекции в направлении собственного вектора. Чем больше значение, тем медленнее изменение тренда функции реакции в этом направлении тем больше кривизна. Следовательно, собственные значения матрицы Гессе пропорциональны кривизне в направлении собственных векторов, где расположены собственные значения. Мы хотим использовать отношение кривизны для устранения краевых точек, мы можем использовать отношение собственных значений Гессе вместо отношения кривизны. Матрица Гессе определяется следующим образом:
Его можно рассчитать по разности второго порядка, затем можно рассчитать отношение собственных значений. Подождите секунду, предполагая, что два собственных значения соответственно, посмотрите на следующие две формулы:
Таким образом обнаруживается, что отношение собственных значений можно вычислить по этим двум парам без разложения по собственным значениям, что намного проще. Предположим, что это большее собственное значение, и тогда
Таким образом, точка, которую мы хотим удалить, эквивалентна удалению точки
точечная отбраковка.