Адрес видео:Продвижение исследований идентификации на уровне экземпляра
Распознавание на уровне экземпляра (ILR) — это задача компьютерного зрения по идентификации конкретного экземпляра объекта, а не только категории, к которой он принадлежит. Например, нас не интересует пометка изображения как «постимпрессионистская картина», а скорее что-то вроде «Звездная ночь Винсента Ван Гога над Роной» или «Триумфальная арка, Париж, Франция», а не просто «Арки». . Проблемы распознавания на уровне экземпляра существуют во многих областях, таких как достопримечательности, произведения искусства, продукты или логотипы, и находят применение в приложениях визуального поиска, организации личных фотографий, покупках и т. д. За последние несколько лет Google внес свой вклад в исследование ILR с помощью набора данных Google Landmarks Dataset, Google Landmarks Dataset v2 (GLDv2) и новых моделей, таких как DELF и Detect-to-Retrieve.
Сегодня мы расскажем о некоторых результатах семинара по идентификации на уровне экземпляра на ECCV’20. Семинар собрал экспертов и энтузиастов в этой области для многих плодотворных дискуссий, включая нашу статью ECCV'20 «Глубокие локальные и глобальные особенности» (DELG), современную модель признаков изображения — распознавание уровней, а также кодовая база с открытым исходным кодом, которая поддерживает DELG и другие связанные технологии ILR. Также представлены две новые этапные задачи, основанные на GLDv2 (задачи распознавания и поиска), а также будущие задачи ILR, которые распространяются на другие области: распознавание произведений искусства и поиск продуктов.Долгосрочная цель и задача семинара - исследование предметной области. рабочие процессы для продвижения прогресса в области ILR и продвижения современных технологий до сих пор в основном рассматривались как отдельные проблемы.
DELG: Глубокие локальные и глобальные функции
Эффективное представление изображений является ключевым компонентом, необходимым для решения проблем распознавания на уровне экземпляра. Обычно требуются два типа представлений: глобальные и локальные функции изображения. Глобальные функции обобщают полное содержание изображения, что приводит к компактным представлениям, но отбрасывает информацию о пространственном расположении визуальных элементов, которая может быть характерна для уникальных примеров. С другой стороны, локальные признаки включают в себя дескрипторы и геометрическую информацию об определенных областях изображения; они особенно полезны для сопоставления изображений, изображающих один и тот же объект.
В настоящее время для большинства систем, использующих эти две функции, требуются разные модели для использования каждой из них по отдельности, что приводит к избыточным вычислениям и снижает общую эффективность. Чтобы решить эту проблему, мы предлагаем DELG, унифицированную модель для локальных и глобальных функций изображения.
В модели DELG используется полностью сверточная нейронная сеть с двумя разными головками: одна для глобальных функций, а другая для локальных. Глобальные признаки получаются с помощью объединенных карт признаков слоев глубокой сети, которые фактически обобщают существенные признаки входного изображения, делая модель более устойчивой к незначительным изменениям во входных данных. Ветвь локальных признаков использует карты промежуточных признаков для обнаружения заметных областей изображения с помощью модуля внимания и создает дескрипторы, представляющие соответствующий локальный контент дискриминационным образом.
Этот новый дизайн обеспечивает эффективный вывод, поскольку он может извлекать глобальные и локальные функции в одной модели. Мы впервые демонстрируем, что такая унифицированная модель может быть обучена от начала до конца и давать самые современные результаты для задач распознавания на уровне экземпляра. По сравнению с предыдущими глобальными функциями, средняя точность этого метода на 7,5% выше, чем у других методов; для этапа переупорядочивания локальных функций результаты на основе DELG на 7% лучше, чем в предыдущей работе. В целом DELG достигает средней точности 61,2% в задаче распознавания GLDv2, превосходя все методы, кроме двух, из задачи 2019 года. Обратите внимание, что все лучшие методы в этой задаче используют сложный набор моделей, тогда как в наших результатах используется только одна модель.
База открытого исходного кода Tensorflow 2
Чтобы повысить воспроизводимость исследований, мы также выпускаем улучшенную кодовую базу с открытым исходным кодом, которая включает DELG и другие методы, связанные с распознаванием на уровне экземпляра, такие как DELF и Detect-to-Retrieve. В нашем коде используется последняя версия Tensorflow 2, которая предоставляет удобную эталонную реализацию для обучения модели и вывода, в дополнение к функциям поиска и сопоставления изображений. Мы приглашаем сообщество использовать и вносить свой вклад в эту кодовую базу, чтобы обеспечить прочную основу для исследований в области ILR.
Новые вызовы для распознавания на уровне экземпляра
Ориентируясь на область ориентиров, Google Landmarks Dataset v2 (GLDv2) является крупнейшим набором данных, доступным для распознавания на уровне экземпляра, с 5 миллионами изображений, охватывающих 200 000 категорий. Обучив ориентировочную модель поиска на этом наборе данных, мы продемонстрировали повышение точности в среднем на 6 % по сравнению с моделями, обученными на более ранних наборах данных. Недавно мы также представили новый браузерный интерфейс для интуитивно понятного изучения набора данных GLDv2.
В этом году мы также запустили две новые задачи в области ориентиров, одна из которых посвящена распознаванию, а другая — поиску. В этих соревнованиях используется недавно собранный набор тестов и новый метод оценки: вместо загрузки CSV-файла с предварительно рассчитанными прогнозами участники должны представить модели и код, которые запускаются на серверах Kaggle, для расчета прогнозов, которые затем оцениваются и ранжируются. эта среда фокусируется на эффективных и практичных решениях.
В конкурсе приняли участие более 1200 команд, что в 3 раза больше, чем за тот же период прошлого года, и является значительным улучшением по сравнению с нашим сильным базовым уровнем DELG, который участвовал. В задаче на распознавание заявки, набравшие наивысшие баллы, имели относительное улучшение средней оценки точности на 43%, а в задаче поиска у команды-победителя было относительное улучшение средней оценки точности на 59%. Последний результат достигается за счет более эффективного сочетания нейронных сетей, методов пулинга и протоколов обучения (подробнее см. на сайте соревнований Kaggle).
Помимо задач идентификации и поиска ориентиров, наши академические и промышленные сотрудники обсуждают свой прогресс в разработке тестов и соревнований в других областях. Крупномасштабный исследовательский эталон для распознавания произведений искусства находится в стадии разработки, используя набор изображений The Met с открытым доступом, а также новый тестовый набор, содержащий гостевые фотографии, демонстрирующие различные фотометрические и геометрические вариации. Точно так же новое соревнование по крупномасштабному поиску продуктов будет охватывать множество сложных аспектов, включая большое количество продуктов, распределения классов с длинными хвостами и различия во внешнем виде и контексте объекта.
Инструкции по обновлению: сначала обновите блог, а затем обновите публичный аккаунт WeChat «Блог дождливой ночи», а затем распространяйте его на различные платформы одну за другой.Если вы хотите узнать больше заранее, обратите внимание на «Блог дождливой ночи». .
Источник блога:Блог Дождливой ночи