Аннотация: Распознавание ориентиров, основанное на глубоком обучении и крупномасштабном обучении изображений, поддерживает распознавание тысяч объектов и распознавание сцен и широко используется в распознавании фотографий, дошкольном образовании и классификации изображений. Эта статья познакомит вас с 6 видами алгоритмов, связанных с достопримечательностями, для систематизации и обобщения.
Эта статья опубликована в сообществе HUAWEI CLOUD.«Алгоритмы распознавания ориентиров», оригинальный автор: Аду.
Распознавание ориентиров, основанное на глубоком обучении и крупномасштабном обучении изображений, поддерживает распознавание тысяч объектов и распознавание сцен и широко используется в таких сценах, как распознавание фотографий, наука о дошкольном образовании и классификация изображений. В этой статье вы найдете 6 алгоритмов для ориентиров.
1. «Решение 1-е место в Google Landmark Retrieval 2020»
Идея алгоритма:
Шаг 1: Используйте очищенный набор данных GLDv2 для обучения начальной модели встраивания.
Шаг 2: Используйте полные данные GLDv2 для выполнения трансферного обучения на основе модели, полученной на шаге 1.
Шаг 3: Постепенно увеличивайте масштаб обучающих изображений (512*512, 640*640, 736*736), и производительность модели еще больше улучшается. Шаг 4: Увеличьте вес потерь при обучении очищенных данных для дальнейшего обучения модели. Шаг 5: Слияние моделей.
Примечания:
1. Модель Backbone представляет собой пул Efficientnet+globalaverage, а для обучения используется cosinesoftmax loss.
2. Для решения проблемы дисбаланса классов используется взвешенная перекрестная энтропия.
Резюме опыта:
1. Очищенные данные способствуют быстрой сходимости модели.
2. Полный объем больших наборов данных способствует лучшему представлению признаков модели.
3. Увеличение разрешения обучения может улучшить производительность модели.
2. «Решение, занявшее 3-е место в Google Landmark Retrieval 2020»
Идея алгоритма:
Шаг 1: Используйте CGLDv2 для обучения базовой модели извлечению полных функций изображения GLDv2, используйте метод кластеризации DBSCAN для обновления категорий изображений и выполнения очистки данных.
Шаг 2: для обучения модели используется метод увеличения изображения Corner-Cutmix.
Примечания:
1. Основой являются ResNest200 и ResNet152, пул GAP, уменьшение размера свертки 1 * 1 до 512 измерений, а функция потерь — кросс-энтропийная потеря.
3. «Двухэтапное дискриминационное ранжирование для крупномасштабного поиска ориентиров»
Идея алгоритма:
Шаг 1: Используйте функции CNN для выполнения поиска KNN для получения похожих изображений.
Шаг 2: Вставьте изображения, пропущенные на шаге 1, для изменения порядка.
Примечания:
1. Модель Backbone представляет собой пул ResNet-101 + GeneralizedMean (GeM), а потери при обучении — это потери ArcFace.
2. Используйте глобальные функции + локальные функции для очистки набора данных GLd-v2 для последующего обучения модели.
4. «2-е место и 2-е место в конкурсе Kaggle по распознаванию и поиску достопримечательностей, 2019 г.»
Идея алгоритма:
1. Используйте весь объем данных GLD-v2 для обучения Resnet152, ResNet200 и других моделей соответственно, обучайте потери как потери ArcFace, потери Npairs, сшивайте функции каждой магистрали, используйте PCA для уменьшения до 512 измерений в качестве глобальной функции. изображения.
2. Поиск KNN с использованием глобальных функций, переупорядочение результатов поиска с использованием SURF, Hassian-Affine и локальных функций корневого просеивания, а также использование DBA и AQE.
5. «Обнаружение и получение: эффективное региональное агрегирование для поиска изображений»
Идея алгоритма:
Шаг 1: Используйте набор данных GLD с bbox для обучения модели обнаружения Faster-RCNN или SSD для извлечения ориентиров.
Шаг 2: Предлагается метод D2R-R-ASMK для извлечения локальных признаков и агрегации признаков в кадре обнаружения.
Шаг 3: Используйте агрегированные функции для поиска в базе данных.
Примечания:
1. D2R-R-ASMK реализован на основе извлечения локальных признаков DELF и агрегации признаков ASMK.
2. Наилучший эффект достигается при извлечении 4,05 регионов на изображение, и соответственно увеличивается использование памяти при поиске.
6. «Объединение глубоких локальных и глобальных функций для поиска изображений»
Идея алгоритма:
Шаг 1. Равномерно извлеките глобальные и локальные функции в одной сети.
Шаг 2. Используйте глобальные функции для поиска похожих изображений в первой сотне.
Шаг 3. Измените порядок результатов поиска, используя локальные функции
Примечания:
1. Глобальные объекты используют объединение GeM и потерю ArcFace.
2. Сопоставление локальных объектов использует метод Ransac.
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~