Узнайте, как применить глубокое обучение к распознаванию действий в видео, из этой статьи.

Автор | Рохит Гош

Сборник | Чжан Цзяньсинь

Править | Дебра

Руководство по передовой ИИ:В этой статье автор обобщает литературу, связанную с распознаванием видео, рассказывает, что такое распознавание действий, почему это так сложно, дает обзор решения и краткое изложение связанных статей.

Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)

Медицинские изображения, такие как МРТ, КТ (трехмерные изображения) очень похожи на видео — все они кодируют двухмерную пространственную информацию в третьем измерении. Подобно диагностике аномалий по 3D-изображениям, распознавание действий по видео требует захвата контекстной информации из всего видео, а не только из каждого кадра.

Рисунок 1: Слева: пример компьютерной томографии головы. Справа: пример видео из набора данных распознавания действий. Измерение Z на объемных картах КТ аналогично измерению времени в видео.

В этой статье я обобщу литературу, связанную с распознаванием видеодействий. Этот пост в блоге разделен на три главы:

Что такое распознавание движения и почему это сложно
Обзор решения
Резюме статьи

Что такое распознавание движения?

Задачи распознавания действий включают определение различных действий из видеоклипа (последовательности двумерных кадров), где действие может присутствовать или отсутствовать на протяжении всего видео. Это немного похоже на естественное расширение задачи классификации изображений, когда распознавание изображений выполняется по нескольким кадрам видео, а прогнозы объединяются для каждого кадра. Несмотря на успех фреймворков глубокого обучения в классификации изображений (ImageNet), архитектуры в классификации видео и обучении представлениям развиваются медленно.

Почему распознавание движения так сложно?

1. Огромные вычислительные затратыПростая двумерная сверточная сеть для классификации 101 имеет всего около 5 млн параметров, в то время как масштабирование той же архитектуры до трехмерной структуры вырастает примерно до 33 млн параметров. Для обучения трехмерной сверточной сети (3DConvNet) на UCF101 требуется от 3 до 4 дней, а на Sports-1M — около 2 месяцев, что затрудняет исследование расширенной структуры и делает возможным переоснащение [1].

2. Зафиксируйте долгосрочный контекстРаспознавание действий включает захват пространственно-временного контекста в кадрах. Кроме того, захваченная пространственная информация должна компенсироваться движением камеры. Даже сильных возможностей обнаружения пространственных объектов недостаточно, поскольку информация о движении также содержит более подробные сведения. Для надежного прогнозирования необходимо захватить глобальный контекст информации о движении при захвате локального контекста относительно движения. В качестве примера возьмем видео, показанное на рисунке 2. Мощный классификатор изображений смог идентифицировать людей и водоемы в двух видеороликах, но не периодические во времени особенности движения вольным стилем и брассом.

Рисунок 2: Выше — фристайл. На фото ниже брасс. Захват временного движения — ключ к различению этих двух, казалось бы, похожих ситуаций. Также обратите внимание, как внезапно меняется угол камеры в середине видео фристайла.

3. Разработайте архитектуру классификацииПроектирование архитектуры, способной фиксировать пространственно-временную информацию, требует оценки нескольких необычных и дорогостоящих вариантов. Например, некоторые необязательные стратегии:

Сеть, которая собирает пространственно-временную информацию одновременно, по сравнению с двумя сетями, одна из которых собирает временную информацию, а другая собирает пространственную информацию.
Предсказание слияния нескольких клипов
Сквозное обучение по сравнению с извлечением признаков и классификацией по отдельности

4. Нет стандартных ориентировВ течение долгого времени UCF101 и Sports1M были самыми популярными наборами тестовых данных. Изучение разумной архитектуры на базе Sports1M стоит очень дорого. Для UCF101, несмотря на то, что количество кадров сравнимо с ImageNet, высокая пространственная корреляция между видео делает фактическое разнообразие в обучении намного меньше. Кроме того, учитывая сходные темы (движение) в наборе данных, обобщение эталонной структуры для других задач все еще остается проблемой. Это было недавно решено с введением набора данных Kinetics [2].

Пример иллюстрации UCF-101. Источник (http://www.thumos.info/)

Здесь следует отметить, что обнаружение аномалий в трехмерных медицинских изображениях не связано со всеми проблемами, упомянутыми здесь. Различия между распознаванием движения и медицинскими изображениями заключаются в следующем:

Для медицинской визуализации временной контекст может быть не так важен, как распознавание действия. Например, обнаружение массивного кровоизлияния в голову с помощью компьютерной томографии должно включать меньший временной контекст по сегментам. Массивное внутричерепное кровоизлияние может быть выявлено из единичного фрагмента. Напротив, обнаружение легочных узлов на КТ грудной клетки включает захват временного контекста, поскольку узлы, наряду с бронхами и кровеносными сосудами, выглядят как круглые объекты на 2D-сканировании. Только захватив трехмерный контекст, узелки сферических объектов можно отличить от сосудов цилиндрических объектов.

Что касается распознавания действий, большинство исследовательских идей опираются на использование предварительно обученных 2D-сверточных нейронных сетей в качестве отправной точки для достижения лучших результатов сходимости. В случае медицинских изображений такая предварительно обученная сеть недоступна.

Обзор решения

Перед глубоким обучением большинство традиционных вариантов алгоритма CV (компьютерного зрения) для распознавания действий можно разделить на следующие 3 обобщенных шага:

Локальные высокоразмерные признаки визуализации, описывающие области видео, извлекаются из плотного [3] или разреженного набора точек интереса [4][5].

Извлеченные функции составляют описание уровня видео с фиксированным масштабом. Популярным вариантом этого шага является упаковка визуального словаря для кодирования функций на уровне видео.

Классификатор, такой как SVM или RF, обучается на основе пакета визуального словаря, чтобы получить окончательный прогноз.

Среди этих алгоритмов, использующих искусственные особенности поверхности на шаге 1, алгоритм iDT (улучшенные плотные траектории [6]), использующий особенности траектории с плотной выборкой, является современным. В то же время алгоритм 3D-свертки, использованный для распознавания действий в 2013 г., не принес особой помощи [7]. Вскоре после 2014 года были опубликованы две новаторские исследовательские работы, которые составляют основу всех статей, которые мы обсудим в этой статье. Их основное отличие заключается в выборе дизайна для объединения пространственно-временной информации.

Сценарий 1: однопоточная сеть

В этой статье [https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf, июнь 2014 г.] ее авторы — Карпати и др. — исследуются различные подходы к объединить временную информацию из последовательных кадров, используя предварительно обученные 2D сверточные сети. [8]

Рисунок 3: Концепция конвергенции. источник

Как показано на рис. 3, последовательные кадры видео являются входными данными для всех настроек. Один кадр использует единую архитектуру, которая объединяет информацию из всех кадров на заключительном этапе. Позднее слияние использует две сети с общими параметрами, разделенные 15 кадрами, а затем объединяет предсказания в конце. Раннее слияние объединяется на первом уровне путем свертки более 10 кадров. Медленное слияние включает в себя слияние в несколько этапов и представляет собой баланс между ранним слиянием и поздним слиянием. Для окончательного прогноза несколько клипов выбираются из всего видео, а их оценки прогноза в конце усредняются.

Несмотря на обширные эксперименты, авторы обнаружили значительно худшие результаты по сравнению с существующими алгоритмами на основе искусственных признаков. Причин такой неудачи много:

Изученные пространственно-временные признаки не фиксируют признаки движения.

Набор данных относительно менее разнообразен, и изучение таких подробных признаков затруднено.

Сценарий 2: Двойная потоковая сеть

В этой новаторской статье Симмояна и Зиссермана [https://arxiv.org/pdf/1406.2199.pdf, июнь 2014 г.] авторы извлекают уроки из неудачи предыдущей статьи Карпати и др.. Учитывая сложность изучения глубокой основы для признаков движения, авторы явно моделируют признаки движения в виде сложенных векторов оптического потока. Таким образом, эта структура имеет 2 отдельные сети — одну для пространственного контекста (предварительно обученную) и одну для контекста движения, а не одну сеть для пространственного контекста. Входом в пространственную сеть является один кадр видео. Авторы экспериментировали с вводом временной сети и обнаружили, что двунаправленный оптический поток, объединенный в 10 последовательных кадров, работает лучше всего. Два потока обучаются отдельно, а затем объединяются с помощью SVM. Окончательный прогноз такой же, как и в предыдущей статье, усредняющий оценки прогноза по нескольким выборочным кадрам.

Рисунок 4: Двухпоточная архитектура. Источник (https://arxiv.org/pdf/1406.2199.pdf)

Хотя этот подход улучшает производительность однопотоковых методов за счет четкого захвата локального временного движения, он все же имеет некоторые недостатки:

Поскольку прогнозы на уровне видео получаются путем усреднения оценок прогнозирования выбранных клипов, долгосрочная временная информация по-прежнему теряется в изученных функциях.
Поскольку тренировочные клипы равномерно отбираются из видео, они страдают от проблемы неправильного присвоения меток. Базовое предположение о том, что все клипы одинаковы, не соответствует основному случаю, когда действие может происходить только в течение небольшого периода времени всего видео.
Этот метод включает предварительное вычисление векторов оптического потока и их отдельное хранение. Кроме того, обучение для двух потоков разделено, а это значит, что до сквозного обучения еще далеко.

Суммировать

Следующие документы основаны на некотором развитии этих двух документов (однопотокового и двухпотокового):

LRCN
C3D
Conv3D & Attention
TwoStreamFusion
TSN
ActionVlad
HiddenTwoStream
I3D
T3D

Темы, которые часто появляются в этих статьях, можно резюмировать следующим образом. Все статьи являются импровизациями, основанными на этих основных идеях.

Темы, которые часто возникают в эссе. Источник https://arxiv.org/pdf/1705.07750.pdf

Для каждой статьи я перечисляю и объясняю их основной вклад. Я также показываю их результаты тестов на UCF101-split1 (http://crcv.ucf.edu/data/UCF101.php).

LRCN

Долговременные рекуррентные сверточные сети для визуального распознавания и описания

Представлено Donahue et al., 17 нояб. 2014 г.

Ссылка на архив: https://arxiv.org/abs/1411.4389

Основные вклады:

Опираясь на предыдущую работу, используя рекуррентную нейронную сеть (RNN) вместо поточной конструкции.
Расширения архитектуры кодирования-декодирования для видеопрезентаций
Предложите сквозную обучаемую архитектуру для распознавания действий

объяснять:

В предыдущей статье Нг и др. [9] авторы исследовали идею использования LSTM на отдельно обученных картах объектов, чтобы увидеть, может ли он собирать временную информацию из клипов. К сожалению, они пришли к выводу, что временное объединение сверточных признаков оказалось более эффективным, чем наложение LSTM обученных карт признаков. В этой статье авторы исходят из той же идеи использования LSTM-блока (декодера) после сверточного блока (кодировщика), но вся архитектура использует сквозное обучение. Они также сравнили RGB и оптический поток в качестве входных параметров и обнаружили, что оценка взвешенного прогноза, основанная на обоих входных данных, была наилучшей.

Рисунок 5: LRCN для распознавания действий слева. Справа общая архитектура LRCN для всех задач. Источник (https://arxiv.org/pdf/1411.4389.pdf)

алгоритм:

Во время обучения из видео были отобраны 16-кадровые клипы. Эта архитектура полностью обучена с оптическим потоком RGB или 16-кадровых клипов в качестве входных данных. Окончательный прогноз для каждого клипа представляет собой среднее значение прогнозов для каждого временного шага. Окончательный прогноз на уровне видео — это среднее значение прогнозов для каждого клипа.

Тест (UCF101-split1):

Комментарии:

Хотя авторы предлагают сквозную структуру обучения, все же есть некоторые недостатки:

Неправильное присвоение метки из-за обрезки видео
Невозможно получить долгосрочную информацию о времени
Использование оптического потока означает отдельное предварительное вычисление характеристик потока.

Варол и др. в своей статье [10] пытаются исправить проблему ошибочного временного диапазона, используя меньшее пространственное разрешение видео и более длинные клипы (60 кадров), что значительно повышает производительность.

C3D

Изучение пространственно-временных характеристик с помощью трехмерных сверточных сетей

Du Tran et al.

Опубликовано 02 декабря 2014 г.

Ссылка на архив: https://arxiv.org/pdf/1412.0767

Основные вклады:

Использование трехмерных сверточных сетей в качестве средств извлечения признаков
Обширное исследование оптимальных ядер и архитектур свертки 3D
Используйте слои деконволюции для объяснения решений по моделированию

объяснять:

Авторы строят эту статью на основе статьи Карпати и др. (один поток). Однако они используют алгоритм 3D-свертки для объема видео вместо алгоритма 2D-свертки для кадров. Идея состоит в том, чтобы обучить эти сети на Sports1M, а затем использовать их (или набор сетей с разной временной глубиной) в качестве экстракторов признаков для других наборов данных. Они обнаружили простой линейный классификатор, похожий на SVM, основанный на полном наборе извлеченных признаков, который был более эффективным, чем лучшие существующие алгоритмы. Эта модель работает лучше, если используются искусственные функции, такие как iDT.

Разница между бумагой C3D и бумагой с одним потоком. Источник (https://arxiv.org/pdf/1412.0767)

Еще одна интересная часть этой статьи — использование слоев деконволюции (ссылка на объяснение http://blog.qure.ai/notes/visualizing_deep_learning) для объяснения решений. Они обнаружили, что сеть фокусировалась на пространственном виде в первых нескольких кадрах и отслеживала движение в последующих кадрах.

алгоритм:

Во время обучения из каждого видео случайным образом извлекаются 5 2-секундных клипов, при условии, что распределение действий по видео известно. Во время тестирования 10 клипов были выбраны случайным образом, и их прогнозные оценки были окончательно усреднены, чтобы получить окончательный прогноз.

Свертка Трехмерная свертка, примененная к кубу пространства-времени.

Тест (UCF101-split1):

Комментарии:

Долгосрочное моделирование остается проблемой. Кроме того, обучение такой огромной сети сложно с точки зрения вычислений, особенно для медицинских изображений, где предварительное обучение на естественных изображениях мало помогает.

Примечание:

Почти в то же время Сан и др. [11] предложили идею факторизованных 3D сверточных сетей (FSTCN), в которой авторы исследовали разложение 3D сверток на пространственные 2D свертки и временные 1D свертки. Эта 1D-свертка размещается за слоем 2D-свертки и реализуется как 2D-свертка во временном и канальном измерениях. Результаты факторизованной трехмерной свертки (FSTCN) для расщепления UCF101 также впечатляют.

Бумаги и 3D-факторизация. Источник (https://arxiv.org/pdf/1510.00562.pdf)

Conv3D & Attention

Используйте временную структуру для описания видео

Yao et al.

Опубликовано 25 апреля 2015 г.

Ссылка на архив: https://arxiv.org/abs/1502.08029

Основные вклады:

Новая архитектура кодера-декодера 3D CNN-RNN, фиксирующая локальную пространственно-временную информацию
Захватывайте глобальный контекст, используя механизм внимания и структуру кодировщика-декодера CNN-RNN.

объяснять:

Хотя эта статья не имеет прямого отношения к распознаванию действий, это важная статья, связанная с представлением видео. В этой статье авторы используют архитектуру 3D CNN + LSTM в качестве базовой архитектуры для задачи описания видео. Вдобавок к этому авторы используют предварительно обученную 3D CNN для улучшения результатов.

алгоритм:

Его настройка почти такая же, как архитектура кодирования-декодирования, описанная в LRCN, с двумя отличиями:

Обрезанная карта признаков 3D CNN обогащает выражение {v1, v2, ..., vn} для каждого кадра i каскадом карт наложения 2D признаков из того же набора кадров вместо передачи признаков из 3D CNN в LSTM. Примечание. Используемые 2D и 3D CNN являются предварительно обученными, а не сквозными, как LRCN.
Используйте взвешенное усреднение для объединения временных признаков вместо усреднения временных векторов всех кадров. где веса внимания определяются на основе выходных данных LSTM на каждом временном шаге.

Механизм внимания для распознавания действий. Источник (https://arxiv.org/abs/1502.08029)

Ориентир:

Комментарии:

Это основополагающая статья 2015 года, в которой впервые был предложен механизм внимания для видеопредставлений.

TwoStreamFusion

Слияние двухпотоковой сверточной сети для распознавания действий в видео

Feichtenhofer et al.

Опубликовано 22 апреля 2016 г.

Ссылка на архив: https://arxiv.org/abs/1604.06573

Основные вклады:

Моделирование долгосрочного времени через долгосрочные потери
Новая многоуровневая архитектура слияния

объяснять:

В этой статье авторы используют базовую двухпотоковую архитектуру, а также две новые схемы для повышения производительности без значительного увеличения размера параметра. Авторы исследуют эффективность этих двух идей.

Слияние пространственных и временных потоков (как и когда) — для распознавания задач между мытьем волос и чисткой зубов пространственные сети могут фиксировать пространственные зависимости (например, волосы или зубы) в видео, в то время как временные сети могут захватывать видео. периодические прогоны для каждого пространственного положения в . Поэтому очень важно сопоставить карту пространственных признаков, соответствующую определенной области лица, с соответствующей областью карты временных признаков. Для достижения той же цели две сети должны быть объединены на ранней стадии, чтобы ответы в одном и том же месте пикселя размещались в соответствующих позициях, а не (как в базовой двухпотоковой архитектуре) сливались последними.
Временные выходные данные сети объединяются по временным рамкам, чтобы также моделировать долгосрочные зависимости.

Алгоритм: почти идентичен двухпотоковой архитектуре, за исключением:

Как показано на рисунке ниже, выходные данные слоя conv_5 из двух потоков объединяются путем объединения conv+pool. На последнем слое есть еще одно слияние. Окончательный объединенный вывод используется для оценки пространственно-временных потерь.

Возможные стратегии слияния пространственных и временных потоков. Стратегия справа работает лучше. Источник (https://arxiv.org/abs/1604.06573)

2. Для временного слияния выходные данные временной сети, сложенные во времени, а затем объединенные путем объединения и объединения, используются для временных потерь. Архитектура фьюжн.

Двойной поток имеет два пути, один — первый шаг, а другой — второй шаг. Источник (https://arxiv.org/abs/1604.06573)

Контрольный показатель (UCF101-сплит):

Комментарии:

Авторы заявляют о превосходстве метода TwoStreamFusion, поскольку он превосходит C3D без дополнительных параметров, используемых в C3D.

TSN

Сети временных сегментов: передовой опыт глубокого распознавания действий

Wang et al.

Опубликовано 02 авг. 2016 г.

Ссылка на архив: https://arxiv.org/abs/1608.00859

Основные вклады:

Эффективное решение для долгосрочного моделирования времени

Будет использоваться нормализация партии, практика отсева

объяснять:

В данной работе авторы оптимизируют двухпотоковую архитектуру, которая дает наилучшие результаты. По сравнению с оригинальной бумагой есть два основных отличия:

Они предлагают разреженную выборку клипов из видео для лучшего моделирования долгосрочного временного сигнала, а не случайную выборку всего видео.
Для окончательного предсказания уровня видео авторы исследуют различные стратегии. Лучшая стратегия это:

Объедините оценки для пространственных и временных потоков (и других потоков, если задействованы другие модальности ввода) отдельно путем усреднения каждого сегмента.
Оценка слияния получается с использованием метода средневзвешенного значения окончательных пространственных и временных оценок с применением softmax для всех классов.

Еще одна важная часть статьи заключается в том, что в ней ставится проблема переобучения (из-за небольшого размера набора данных) и демонстрируются популярные в настоящее время методы пакетной нормализации, отсева, предварительной подготовки и т. д. Авторы также оценивают две новые формы ввода помимо оптического потока — искаженный оптический поток и разность RGB.

алгоритм:

Во время обучения и прогнозирования видео сегментируется на K сегментов одного и того же периода времени. После этого случайным образом выберите несколько сегментов из K сегментов. Остальные шаги аналогичны двухпотоковой архитектуре, за исключением некоторых изменений, упомянутых выше.

Архитектура сети временных интервалов. Источник (https://arxiv.org/pdf/1608.00859.pdf)

Тест (UCF101-split1):

Комментарии:

В этой статье делается попытка решить две большие проблемы в области распознавания действий — переобучение и долгосрочное временное моделирование из-за небольшого размера набора данных, и результаты очень хорошие. Тем не менее, проблема предварительного расчета оптического потока и связанной с ним формы ввода все еще остается проблемой.

ActionVLAD

ActionVLAD: обучение пространственно-временному агрегированию для классификации действий

Girdhar et al.

Опубликовано 10 апреля 2017 г.

Ссылка на архив: https://arxiv.org/pdf/1704.02895.pdf

Основные вклады решения:

Обучаемое агрегирование функций на уровне видео
Сквозные обучаемые модели с агрегированными видео функциями для фиксации долгосрочных зависимостей

объяснять:

В этой статье наиболее заметным вкладом автора является использование агрегации обучаемых функций (VLAD), в отличие от стандартной агрегации с использованием maxpool и avgpool. Этот метод агрегирования похож на пакет визуального словаря. Словарь, основанный на нескольких выученных якорях (например, c1, ...ck), представляет пространственно-временные характеристики, связанные с k типичными действиями (или поддействиями). Выходные данные каждого потока в двухпотоковой архитектуре кодируются с помощью k признаков, связанных с «лексикой действий» — каждый признак отличается от вывода соответствующего якоря для любого заданного пространственного или временного местоположения.

ActionVLAD — Визуальный «словарь» на основе пакетов действий. Источник (https://arxiv.org/pdf/1704.02895.pdf)

Среднее или максимальное объединение (Примечание переводчика: максимальное объединение относится к разделению входного изображения на несколько прямоугольных областей и выводу максимального значения для каждой подобласти.) Представляет полное распределение характерных точек, поскольку один дескриптор важен для представление нескольких. Это может быть неоптимальным для полного видео, состоящего из поддействий. Напротив, агрегация видео, предложенная в документе, выражает распределение полного дескриптора в виде нескольких поддействий путем разделения пространства дескриптора на k единиц и объединения в каждой единице.

Хотя максимальное или среднее объединение хорошо работает для схожих функций, они не охватывают должным образом все распределение. ActionVLAD агрегирует характеристики внешнего вида и движения, а остальные агрегирует из ближайшего центра кластера. Источник (https://arxiv.org/pdf/1704.02895.pdf)

алгоритм:

Если не считать использования слоя ActionVLAD, все осталось почти как в двухпоточной архитектуре. Автор попробовал многоуровневую архитектуру, поместив слой ActionVLAD и позднее слияние после слоя conv как наилучшую стратегию.

Тест (UCF101-split1):

мой комментарий:

Использование VLAD в качестве эффективного метода пулинга давно зарекомендовало себя. В начале 2017 года то же расширение в сквозной структуре делает эту технику очень надежной и продвинутой для большинства задач распознавания действий.

HiddenTwoStream

Скрытые двухпотоковые сверточные сети для распознавания действий

Zhu et al.

Опубликовано 2 апреля 2017 г.

Ссылка на архив: https://arxiv.org/abs/1704.00389

Основные вклады:

Новая архитектура для создания динамических входных данных оптического потока с использованием изолированных сетей

объяснять:

Использование оптического потока в двухпотоковой архитектуре требует принудительного предварительного вычисления оптического потока перед каждым дискретизированным кадром, что отрицательно сказывается на хранении и скорости. В этой статье предлагается использовать неконтролируемую архитектуру для генерации оптического потока для стеков кадров.

Оптический поток можно рассматривать как задачу реконструкции изображения. Принимая набор смежных кадров I1 и I2 в качестве входных данных, наша сверточная нейронная сеть генерирует поле потока V. Затем, используя предсказанные поля потока V и I2, I1 можно реконструировать в I1', используя метод обратной упаковки, который минимизирует разницу между I1 и его реконструированным телом.

алгоритм:

Авторы исследуют несколько стратегий и архитектур для создания оптического потока с максимальным количеством кадров в секунду и минимальными параметрами без ущерба для точности. Окончательная архитектура аналогична двухпоточной архитектуре со следующими изменениями:

Temporal Flow теперь имеет сеть генерации оптического потока (MotionNet), расположенную поверх общей архитектуры временного потока. Входными данными для временного потока теперь являются естественные кадры вместо предварительно обработанного оптического потока.
При неконтролируемом обучении MotionNet возникают дополнительные многоуровневые потери. Авторы демонстрируют прирост производительности при использовании слияния на основе TSN вместо сверточной архитектуры для двухпотоковой схемы.

HiddenTwoStream — MotionNet генерирует динамический оптический поток. Источник (https://arxiv.org/pdf/1704.00389.pdf)

Тест (UCF101-split1):

Комментарии:

Основной вклад этой статьи заключается в повышении скорости и связанных с этим затрат на прогнозирование. Благодаря автоматической генерации потока авторы избавляются от зависимости от более медленных традиционных методов генерации оптического потока.

I3D

Куда пойдет распознавание движения? Новая модель и кинетический набор данных

Carreira et al.

Опубликовано 22 мая 2017 г.

Ссылка на архив: https://arxiv.org/abs/1705.07750

Основные вклады:

Использование предварительного обучения для объединения 3D-моделей в двухпотоковую архитектуру
Набор данных Kinetics для будущих тестов и улучшения разнообразия наборов данных действий

объяснять:

Эта статья основана на C3D. Авторы используют 2 разные 3D-сети вместо одной 3D-сети в двухпоточной архитектуре. Кроме того, чтобы воспользоваться преимуществами предварительно обученной 2D-модели, авторы повторно используют предварительно обученные 2D-веса в третьем измерении. Ввод пространственного потока теперь включает кадры, сложенные во времени, вместо кадров одного типа в базовой двухпотоковой архитектуре.

алгоритм:

То же, что и базовая двухпоточная архитектура, за исключением трехмерной сети для каждого потока.

Тест (UCF101-split1):

Комментарии:

Основной вклад этой статьи состоит в том, чтобы продемонстрировать преимущества использования предварительно обученных двумерных сверточных сетей. Набор данных Kinetics с открытым исходным кодом в статье является еще одним важным вкладом в эту статью.

T3D

Временные 3D ConvNets: новые архитектуры и алгоритмы трансферного обучения для классификации видео

Diba et al.

Опубликовано 22 ноября 2017 г.

Ссылка на архив: https://arxiv.org/abs/1711.08200

Основные вклады:

Архитектура композиции временной информации с переменной глубиной
Новые обучающие архитектуры и методы контролируемого переноса обучения из предварительно обученных 2D-сетей в 3D-сети

Объяснение: Авторы расширяют работу, проделанную над I3D, но предлагают однопотоковую трехмерную архитектуру на основе DesnseNet с многоуровневыми временными переходными слоями, расположенными после плотных блоков для захвата различных временных глубин. Это многоуровневое объединение достигается путем объединения ядер разного временного масштаба.

Уровни TTL и остальная часть архитектуры DenseNet. Источник (https://arxiv.org/abs/1711.08200)

В дополнение к вышесказанному авторы также разрабатывают новую технику обучения с контролируемым переносом между предварительно обученными 2D-сверточными сетями и T3D. И предварительно обученная 2D-сеть, и T3D получаются из кадров и клипов видео, которые могут быть или не быть из одного и того же видео. Эта архитектура обучена прогнозировать 0/1 на основе правильных и неправильных прогнозов, распространяемых обратно сетью T3D, тем самым эффективно передавая знания.

Трансферное обучение под наблюдением. Источник (https://arxiv.org/abs/1711.08200)

алгоритм:

Эта архитектура в основном представляет собой трехмерную модификацию DenseNet [12] с добавлением переменного временного пула.

Тест (UCF101-split1):

Комментарии:

Хотя в конечном итоге это не улучшило результаты I3D, во многом это можно объяснить гораздо более низкими показателями модели по сравнению с I3D. Последним вкладом в эту статью является метод контролируемого трансферного обучения.

оригинальный автор

Rohit Ghosh

Посмотреть исходный английский текст:

http://blog.qure.ai/notes/deep-learning-for-videos-action-recognition-review

[1] ConvNet Architecture Search for Spatiotemporal Feature Learning by Du Tran et al.

[2] Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

[3] Action recognition by dense trajectories by Wang et. al.

[4] On space-time interest points by Laptev

[5] Behavior recognition via sparse spatio-temporal features by Dollar et al

[6] Action Recognition with Improved Trajectories by Wang et al.

[7] 3D Convolutional Neural Networks for Human Action Recognition by Ji et al.

[8] Large-scale Video Classification with Convolutional Neural Networks by Karpathy et al.

[9] Beyond Short Snippets: Deep Networks for Video Classification by Ng et al.

[10] Long-term Temporal Convolutions for Action Recognition by Varol et al.

[11] Human Action Recognition using Factorized Spatio-Temporal Convolutional Networks by Sun et al.

[12] Densely Connected Convolutional Networks by Huang et al.