6 распространенных алгоритмов распознавания ориентиров, сортировка и сводка

Аннотация: Распознавание ориентиров, основанное на глубоком обучении и крупномасштабном обучении изображений, поддерживает распознавание тысяч объектов и распознавание сцен и широко используется в распознавании фотографий, дошкольном образовании и классификации изображений. Эта статья познакомит вас с 6 видами алгоритмов, связанных с достопримечательностями, для систематизации и обобщения.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Алгоритмы распознавания ориентиров», оригинальный автор: Аду.

Распознавание ориентиров, основанное на глубоком обучении и крупномасштабном обучении изображений, поддерживает распознавание тысяч объектов и распознавание сцен и широко используется в таких сценах, как распознавание фотографий, наука о дошкольном образовании и классификация изображений. В этой статье вы найдете 6 алгоритмов для ориентиров.

1. «Решение 1-е место в Google Landmark Retrieval 2020»

Идея алгоритма:

Шаг 1: Используйте очищенный набор данных GLDv2 для обучения начальной модели встраивания.

Шаг 2: Используйте полные данные GLDv2 для выполнения трансферного обучения на основе модели, полученной на шаге 1.

Шаг 3: Постепенно увеличивайте масштаб обучающих изображений (512*512, 640*640, 736*736), и производительность модели еще больше улучшается. Шаг 4: Увеличьте вес потерь при обучении очищенных данных для дальнейшего обучения модели. Шаг 5: Слияние моделей.

Примечания:

1. Модель Backbone представляет собой пул Efficientnet+globalaverage, а для обучения используется cosinesoftmax loss.

2. Для решения проблемы дисбаланса классов используется взвешенная перекрестная энтропия.

Резюме опыта:

1. Очищенные данные способствуют быстрой сходимости модели.

2. Полный объем больших наборов данных способствует лучшему представлению признаков модели.

3. Увеличение разрешения обучения может улучшить производительность модели.

2. «Решение, занявшее 3-е место в Google Landmark Retrieval 2020»

Идея алгоритма:

Шаг 1: Используйте CGLDv2 для обучения базовой модели извлечению полных функций изображения GLDv2, используйте метод кластеризации DBSCAN для обновления категорий изображений и выполнения очистки данных.

Шаг 2: для обучения модели используется метод увеличения изображения Corner-Cutmix.

Примечания:

1. Основой являются ResNest200 и ResNet152, пул GAP, уменьшение размера свертки 1 * 1 до 512 измерений, а функция потерь — кросс-энтропийная потеря.

3. «Двухэтапное дискриминационное ранжирование для крупномасштабного поиска ориентиров»

Идея алгоритма:

Шаг 1: Используйте функции CNN для выполнения поиска KNN для получения похожих изображений.

Шаг 2: Вставьте изображения, пропущенные на шаге 1, для изменения порядка.

Примечания:

1. Модель Backbone представляет собой пул ResNet-101 + GeneralizedMean (GeM), а потери при обучении — это потери ArcFace.

2. Используйте глобальные функции + локальные функции для очистки набора данных GLd-v2 для последующего обучения модели.

4. «2-е место и 2-е место в конкурсе Kaggle по распознаванию и поиску достопримечательностей, 2019 г.»

Идея алгоритма:

1. Используйте весь объем данных GLD-v2 для обучения Resnet152, ResNet200 и других моделей соответственно, обучайте потери как потери ArcFace, потери Npairs, сшивайте функции каждой магистрали, используйте PCA для уменьшения до 512 измерений в качестве глобальной функции. изображения.

2. Поиск KNN с использованием глобальных функций, переупорядочение результатов поиска с использованием SURF, Hassian-Affine и локальных функций корневого просеивания, а также использование DBA и AQE.

5. «Обнаружение и получение: эффективное региональное агрегирование для поиска изображений»

Идея алгоритма:

Шаг 1: Используйте набор данных GLD с bbox для обучения модели обнаружения Faster-RCNN или SSD для извлечения ориентиров.

Шаг 2: Предлагается метод D2R-R-ASMK для извлечения локальных признаков и агрегации признаков в кадре обнаружения.

Шаг 3: Используйте агрегированные функции для поиска в базе данных.

Примечания:

1. D2R-R-ASMK реализован на основе извлечения локальных признаков DELF и агрегации признаков ASMK.

2. Наилучший эффект достигается при извлечении 4,05 регионов на изображение, и соответственно увеличивается использование памяти при поиске.

6. «Объединение глубоких локальных и глобальных функций для поиска изображений»

Идея алгоритма:

Шаг 1. Равномерно извлеките глобальные и локальные функции в одной сети.

Шаг 2. Используйте глобальные функции для поиска похожих изображений в первой сотне.

Шаг 3. Измените порядок результатов поиска, используя локальные функции

Примечания:

1. Глобальные объекты используют объединение GeM и потерю ArcFace.

2. Сопоставление локальных объектов использует метод Ransac.

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~