1. Анализ конкурсных вопросов
1.1. Введение в конкурсные вопросы
Первое международное соревнование по аудио- и видеоалгоритмам «Кубок Маланшаня» проводилось под руководством Китайского общества промышленных и математических приложений, организовано Информационным интернет-управлением провинции Хунань и Ассоциацией науки и технологий провинции Хунань, а организовано Китаем (Чанша) Маланшань. Видео Культурно-Креативный Индустриальный Парк и Манго ТВ.
Этот конкурс алгоритмов разделен на три вопроса: отслеживание точек для видео, рекомендации по видео и устранение повреждений качества изображения. Я участвовал в отслеживании точек для видео, и как предварительный, так и полуфинал заняли второе место. Общий метод таков. использовать изображения Регистрация + отслеживание изображений.
Отслеживание точек, специфичных для видео, относится к технологии отслеживания и определения положения исходной маркированной области в последующем видео по мере продвижения видео при условии первоначальной маркировки фиксированной области видео. Одной из точек приложения этой технологии является размещение динамической рекламы в видеороликах, что может улучшить монетизационные возможности видеоплатформы и снизить риск слепых инвестиций для рекламодателей, не влияя на впечатления пользователя от просмотра.Динамическая видеореклама стала популярной. форма рекламы. Видеодинамическая реклама требует, чтобы визуальные элементы рекламы были естественно и точно интегрированы с исходным видеоконтентом, чтобы добиться эффекта фальшивости и реальности. Это требует от нас точной оценки движения камеры, точной оценки света и тени и правильной обработки глубины резкости и окклюзии объекта. Как решить вышеуказанные проблемы, повысить реалистичность размещения видеодинамической рекламы и максимально реализовать автоматическое и стандартизированное размещение видеодинамической рекламы, чрезвычайно сложно.
Грубо говоря, положение цели задается в первом кадре, а положение цели прогнозируется в последующих кадрах. Эта позиция представляет собой четыре вершины четырехугольника по часовой стрелке, который может быть неправильным четырехугольником.После подсчета чувств участников обычно считается, что этот вопрос очень интересен.Для сценариев применения он также относительно обширен.Применение организатор в основном занимается имплантацией рекламы, вставляя рекламные плакаты и динамические видеоролики в область отслеживания, делает рекламу встроенной в контент просмотра, и реклама естественным образом имплантируется, не влияя на впечатления пользователя от просмотра Таким образом, это влияние на отслеживание точность локации особо высокая.По смыслу организатора mse должна быть меньше 1,чтобы не влиять на эффект просмотра.
1.2. Описание данных
Данные исследования: для исследования творческих решений. На первом кадре видео отмечается площадь объекта, который будет вживляться в рекламу. Сцены проще и короче по продолжительности (~100 кадров). Всего 2000 видеороликов.
Данные контрольного набора: 100 видеоклипов, видео аннотирует траекторию четырех характерных точек на всех кадрах предполагаемой области имплантации. Он используется для завершения проверки эффекта имплантации творческой схемы.
Данные тестового набора: разделены на списки AB, каждый из которых содержит 200 видеоклипов, и видео отмечает траекторию четырех характерных точек на всех кадрах имплантируемой области. Он используется для завершения проверки эффекта имплантации творческой схемы. Участники получают только координаты четырех характерных точек первого кадра.
1.3 Метрики оценки
Предположим, всего N видео, а в видео M кадров.
Для определенного кадра f MSE рассчитывается следующим образом:
Для видео MSE рассчитывается следующим образом:
Для всего набора видео окончательный MSE:
2. Определите план
2.1. Обзор распространенных схем
Для общих приложений отслеживания мы сначала думаем о традиционных методах, таких как корреляционная фильтрация (kcf), среднее смещение, а затем о развитии глубокого обучения.Для отслеживания различных конкретных целей в отрасли часто используется отслеживание путем обнаружения, например отслеживание лица, Отслеживание пешеходов Отслеживание заключается в том, чтобы сначала обнаружить целевой кадр, а затем соединить эти кадры во временном ряду посредством корреляции или позиционного отношения. Для применения этого события вышеуказанные методы не могут быть использованы напрямую, есть примерно два отличия.
-
Коробка в вопросе - неправильный четырехугольник, а окно выборки в kcf или якорь в модели обнаружения в dnn - вообще правильный четырехугольник.И вопрос требует высокой точности на четырех вершинах
-
Содержимое поля в вопросе может быть закрыто или содержимое может измениться, а отслеживаемая цель может не иметь никаких признаков.
Наконец, делается вывод, что направление этой проблемы находится между регистрацией изображения (обычно используемой в слэме и медицинской регистрации) и отслеживанием изображения (VOT, MOT).Если используется только регистрация изображения, некоторые сценарии в этой задаче неприменимы. при этом не будет работать только схема слежения за изображением, я ее подробно опишу позже, поэтому при выборе схемы я объединил несколько схем из двух направлений на основе простой стратегии.
2.1.1 Регистрация изображения
Общий процесс регистрации изображений заключается в выравнивании двух изображений путем выделения признаков, сопоставления и, наконец, выравнивания изображений. Вкратце, мы выбираем точки интереса на двух изображениях, связываем эталонное изображение с эквивалентной точкой интереса на воспринятом изображении и преобразуем воспринятое изображение, чтобы совместить два изображения. Традиционные методы регистрации изображений часто используют SIFT+NN, а промышленность может использовать функции ORB из-за эффективности. В то же время у глубокого обучения также есть неплохая работа по регистрации: основные решения часто используют SuperPoint и SuperGlue. SuperPoint использует глубокое обучение для получения характерных точек на изображении, а SuperGlue использует CNN и GNN для сопоставления характерных точек двух кадров изображений. Конечно, в 2020 году появятся новые документы SOTA по регистрации изображений, и смежные направления можно продолжить изучать.
Наконец, я принял метод SIFT+NN. Дело не в том, что SuperPoint+SuperGlue не пахнет, но главная причина в том, что нет обучающего набора данных для задачи конкуренции.Как правило, применимость функций, обученных методом глубокого обучения, не обязательно хорошая.Кроме того, даже если SIFT+ У NN больше несоответствий, чем у SuperPoint+SuperGlue, с ним можно получить хороший результат трансформации.
2.1.2. Отслеживание изображения
Соответствующие знания об отслеживании изображений также относительно велики. Я кратко опишу причины использования siammask здесь. Голова сети может выполнять некоторые стратегии с маской, и в большинстве сцен эффект лучше, но ему не хватает точного положения четыре вершины, здесь роль заключается в использовании калибровки положения центра. В то же время измерение подобия кадра-кандидата также опирается на некоторые знания об отслеживании.
2.2 Схема
Конкретный конвейер разделен на две части.Первая часть представляет собой прогнозируемую позицию и вызывает кадр прогнозирования.Вторая часть представляет собой расчет подобия, который выбирает оптимальный кадр.Модуль прогнозируемой позиции прогнозирует позицию кадра отслеживания с помощью различных методов. . Вычисление сходства заключается в вычислении сходства между содержимым каждого поля и эталонным содержимым в качестве оценки достоверности поля. Создание этого конвейера означает, что направление моей оптимизации состоит в том, чтобы вспомнить положение поля как можно больше. возможно, и выбирается наиболее точная оценка подобия.Отличный кадр.
2.2.1 Прогнозируемое местоположение
Разделите характерные точки глобального изображения. Оно разделено на полное изображение, локальные области и области с четырьмя вершинами. Для характерных точек полного изображения используются характерные точки SIFT, а для сопряжения используются пары ближайших ошейников NN. Для локальных функций функция SIFT используются точки + угловые точки.SIFT использует NN-спаривание, углы соединяются с использованием оптической оценки потока и обратной проверки.Область с четырьмя вершинами использует функции SIFT, а сопоставление шаблонов используется для сопряжения из-за небольшого количества характерных точек.И для характерных точек каждой области получают соответственно матрицу гомографии и слияния Найдите матрицу гомографии после характерных точек.
2.2.2 Расчет подобия
Процесс вычисления подобия также является распространенным решением.Здесь область сравнения увеличивается по диагонали, чтобы ввести ошибку направления.Наконец, деформация сравнивается в прямоугольник.
3. Настройка эффектов
3.1 Анализ
план | преимущество | недостаток |
---|---|---|
регистрация изображения | В идеале, в соответствии с аффинной взаимосвязью парных точек, координаты четырех вершин области отслеживания могут быть точно получены после выравнивания и преобразования.Даже если область отслеживания закрыта, положение может быть определено в соответствии с взаимосвязью других области | Характерные точки, полученные через локальную область, впоследствии объединяются в пары с помощью дескриптора.Глобальная информация о местоположении или признаках по-прежнему теряется, и неправильное сопоставление может произойти в нескольких похожих сценах, что приведет к неточным положениям вершин. |
Отслеживание целей | В случае слежения за одной целью предсказанная область слежения передается рецептивным полем со ссылкой на глобальную информацию, и общее положение остается относительно точным. | Коробка неправильного четырехугольника не поддерживается, что приводит к снижению точности mse.Когда сопровождаемая цель изменяется или закрывается, коробка неточна и почти не имеет решения. |
3.2 Улучшенные решения
3.2.1. Разделение местоположения характерных точек (очевидное улучшение оценки)
мотивация: спаривание характерных точек является точным, а их количество велико, что может не гарантировать точное положение прогнозируемого кадра. Например, изображение после регистрации и выравнивания глобальных характерных точек не обязательно выровнено в области отслеживания. Идеальное состояние - это непосредственно найти область отслеживания. Парные точки четырех вершин, но четыре вершины области отслеживания реального состояния не обязательно являются характерными точками. Поэтому при настройке я использовал раздел характерных точек, чтобы улучшить внимательность в область отслеживания, что может не только улучшить сопоставление характерных точек. Точность процесса также обеспечивает соответствие вызванных блоков-кандидатов цели локального отслеживания.
Около 5% видео в конкурсе имеют серьезное размытие.Такой случай очень сложно оптимизировать.Общее описание состоит в том, что видео дрожит из-за метода съемки, а отслеживаемая цель - размытый фон, и крупный план переднего планаДвижущийся объект, В этом случае большинство характерных точек распределены на переднем плане крупного плана, и прогнозируемое положение смещено передним планом, но наземная правда должна быть дрожащим размытым фоном. Наконец, я решаю особенности области низкочастотной составляющей изображения по угловым точкам (Проблема меньшего количества точек) + приоритет разделения (для решения проблемы большого количества характерных точек со смещением на передний план) + siammask (алгоритм отслеживания имеет меньшее влияние в этом типе случая), что может примерно охватывать этот тип случая.
3.2.2 Настройка подобия (очевидное улучшение оценки)
мотивация: иногда сходство изображения с определенным порогом не является точным.Например, 96% не обязательно лучше, чем 95% кадра-кандидата.Здесь область сравнения увеличена по диагональной линии, и сходство вызвано по ошибке координаты изображения увеличивается.Ошибка степени.Это в основном из-за отклонения диагонального направления, вызванного ошибкой координат.Таким образом суть состоит в том, чтобы ввести ошибку направления.Фильтрация и SSIM используются для измерения подобия. Время ограничено, и нет теста, является ли метрика глубокого обучения обучением или сетью siammse. Есть лучшие метрики.
3.2.3 Оптимизация оценки оптического потока (очевидное улучшение)
мотивация: В некоторых сценах функции просеивания недостаточно, а угловые точки используются для увеличения точек сопряжения с помощью оценки оптического потока.В то же время, поскольку оценка оптического потока имеет зависимый временной контекст и подходит для сцен с небольшими меняется фон, он добавляется в опорный кадр search_window Изображение во временном ряду, ближайшее к кадру-кандидату.
3.2.4. стратегия переоценки (малый балл)
мотивация: Во-первых, сходство изображения не соответствует определенному порогу. Например, 96% не обязательно лучше, чем 95%-й кадр-кандидат. Во-вторых, при серьезной окклюзии сходство будет очень низким. Я переоцениваю ранжирование по сходству с помощью приоритета эталонного раздела, и это также может эффективно попадать в лучшее поле.
3.3 Другие решения без продвижения
3.3.1. Использование других традиционных характерных точек
Я попробовал несколько других традиционных точек, таких как сфера и т. д., но эффект просеивания не так хорош, как у просеивания.Для сцен с небольшим количеством выходных точек также хорошим решением является использование угловых точек для оптической оценки потока. , а эффект других характерных точек не особенно хорош, поэтому не рекомендуется пробовать другие традиционные схемы характерных точек, можно попробовать метод глубокого обучения, который должен дать хорошие результаты в тонкой настройке с данными соревнований.
3.3.2 Традиционное отслеживание целей, такое как kcf
Эффект не так хорош как siammask.Для сложных сцен,как ни оптимизируй,улучшить сложно.Не рекомендуется тратить слишком много сил на сопровождение цели.Основная работа этого блока - коррекция положения спаривания характерных точек. Трудно только пройти цель. Отслеживание дает хорошие результаты, и схема чемпиона также регистрируется по изображению.
4.рекомендация трюков
4.1. Визуализация и количественная оценка эффекта для улучшения анализа плохих случаев
Это метод, который обычно используется всеми, но в этом вопросе нет оснований.Самый ранний расчет подобия, сформулированный априорными правилами, использовался в качестве уровня достоверности, так что я мог быстро перейти от предварительного раунда к полуфиналы более 10 дней Тюнинг.
4.2 Мотивация некоторых работ может быть использована для справки
Традиционные функции, такие как просеивание, обычно являются локальными функциями. Когда мы используем регистрацию локальных функций просеивания, мы не располагаем информацией о положении и структуре. Здесь вводится siammask. Теоретически, полагаясь на рецептивное поле cnn, я могу получить эталонное глобальное отслеживание В предварительном раунде это действительно улучшило показатели, но в полуфинале показатели немного упали, и в конце концов их убрали.Но я чувствую, что это должно помочь, потому что полуфинал только взял три дня и так и не нашел причину снижения показателей.
4.3.SuperPoint+SuperGlue
Бумага, дополненная SuperGlue, действительно мощная. Я чувствую, что суперклей намного лучше, чем NN, и, возможно, показатель SuperPoint + SuperGlue будет улучшен. В конкурсе другие студенты также использовали SuperPoint + SuperGlue, но в итоге это не так. так же хорошо, как и мой рейтинг. Я все еще чувствую, что направление не правильное Управление хорошо. Этот конкурс не только о регистрации изображения, но также зависит от моего модуля настройки эффектов. В то же время я видел решение Megvii CVPR 2020 SLAM Challenge. При возникновении проблемы с несколькими точками они использовали динамическую настройку порога. , но я не знаю, как настроить динамически в соответствии с какой ссылкой, это также можно использовать как трюк, чтобы попробовать.
Reference:
1.SuperPoint: Self-Supervised Interest Point Detection and Description
2.SuperGlue: Learning Feature Matching with Graph Neural Networks