Предисловие:
Применение преобразователя в направлении понимания видео в основном включает следующие реализации: совместное пространственно-временное внимание, разреженное локальное глобальное внимание и осевое внимание. Общим моментом этих методов является использование метода ViT для блокировки изображения, а разница между ними заключается в том, как использовать внимание к себе для обработки этих блоков.
В этой статье предлагается новый метод обработки - разделенное пространственно-временное внимание.На крупномасштабном наборе данных классификации поведения, посредством оценки вышеуказанных методов и разделенного пространственно-временного внимания, автор обнаружил, что способ использования разделенного пространственно-временного внимания внимание Лучший дизайн для обработки этих блоков.
TimeSformer достигает результатов SOTA в нескольких основных тестах распознавания поведения, включая высочайшую точность на Kinetics-400 и Kinetics-600. Кроме того, TimeSformer быстрее обучается и имеет более высокую эффективность тестирования по сравнению с другими моделями.
Бумага: Достаточно ли пространственно-временного внимания для понимания видео?
Код:GitHub.com/баклановые стоки/…
Код еще не полностью открыт, но модель уже выпущена. Код относительно прост.
Диссертационные идеи
Понимание видео имеет много общего с НЛП. Во-первых, и видео, и предложения являются последовательными, более того, слово может быть понято только по отношению к другим словам в предложении, а сегмент в видеодействии также должен быть связан с контекстом видео. Таким образом, мы ожидаем, что эта модель долгосрочного внутреннего внимания в НЛП будет хорошо работать в видеомоделях.
В поле видео 2D или 3D свертка является основной операцией для извлечения пространственно-временных признаков, но одна из очевидных проблем операции свертки заключается в том, что рецептивное поле ограничено.Чтобы получить глобальное рецептивное поле, необходимо выполнить множество слоев слоев свертки. Пути распространения информации у них относительно длинные. Операция внутреннего внимания может легко получить глобальное рецептивное поле и зафиксировать локальные и долгосрочные зависимости.
Еще одна проблема сверточных операций заключается в том, что они ограничены памятью, особенно в области видео, что часто требует компромисса между кадрами высокого разрешения и кадрами дальнего действия. В последние годы работа некоторых исследователей показала, что Transformer может получить более быстрое обучение и вывод, чем CNN, поэтому при том же вычислительном бюджете Transformer может использовать большую способность к обучению.
Стандартное внутреннее внимание необходимо для вычисления сходства между всеми маркерами Этот метод требует большого объема вычислений, поэтому необходимо рассмотреть, как использовать собственное внимание для обработки блоков изображения. В статье сравниваются несколько методов обработки в этом отношении, и предложенный метод Разделенного внимания имеет лучшую производительность.
В этой статье в основном будут представлены эти методы.
некоторые детали
Общей частью этих методов является разделение видеокадра на блоки размером PxP, и каждый кадр может быть разделен на блоки N=HW/(P*P).
Разница между ними заключается в том, как выбирать, какие блоки соединить для само-внимания.
Пространственное внимание заключается в выполнении внутреннего внимания только на всех блоках одного и того же кадра. Очевидно, что этот подход не учитывает временную информацию между разными кадрами.
Совместное пространственно-временное внимание заключается в выполнении внутреннего внимания на всех блоках изображения.Наиболее очевидная проблема с этим методом заключается в том, что объем вычислений слишком велик.
Разреженное локальное глобальное внимание разделено на два этапа.Выберите блок локальной области для самостоятельного внимания, чтобы извлечь локальную информацию, и выберите блоки в соответствии с определенным размером шага для самостоятельного внимания, чтобы извлечь глобальную информацию.Этот метод имеет определенную разреженность и характеризуется объемом исчисления.
Осевое внимание разделено на три этапа: сначала выполняется временное внимание к блокам в одном и том же положении в разных кадрах, а затем для пространственного внимания выбираются одинаковые горизонтальные и вертикальные блоки в одном и том же кадре по горизонтали и вертикали.
Разделенное пространственно-временное внимание, предложенное в этой статье, разделено на два этапа: во-первых, временное внимание выполняется на блоках в одной и той же позиции в разных кадрах, а затем все блоки в одном кадре подвергаются пространственному вниманию.
Конкретная схема выглядит следующим образом.
Результаты экспериментов
Сравнение параметров и точности этих методов.
Добро пожаловать в техническое руководство по общедоступной учетной записи CV, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.
Другие статьи
Краткое изложение методов недообучения и переобучения
Краткое изложение общих идей бумажных инноваций
Резюме методов эффективного чтения англоязычной литературы по направлению CV
Обзор непродолжительного обучения компьютерному зрению
Краткий обзор дистилляции знаний
Оптимизировать скорость чтения видео OpenCV
Краткое изложение методов функции потерь
Техническое резюме механизма внимания
Краткое изложение технологии пирамиды функций
Краткое изложение технологии объединения
Краткое изложение методов увеличения данных
Резюме эволюции структуры CNN (1) Классическая модель
Резюме эволюции структуры CNN (2) Облегченная модель
Резюме эволюции структуры CNN (3) Принципы проектирования
Как увидеть будущее направление компьютерного зрения
Краткое изложение технологии визуализации CNN (1) - визуализация карты функций
Краткое изложение технологии визуализации CNN (2) - визуализация ядра свертки
Краткое описание технологии визуализации CNN (3) - визуализация класса
Краткое описание технологии визуализации CNN (4) - инструменты и проекты визуализации