Адрес бумаги:АР Вест V.org/ABS/2007.10…
Код диссертации:github.com/gabeur/mmt
1. Точка инноваций
В традиционной текстово-видеопоисковой области мультимодальная информация отбрасывается или используются только механизмы стробирования для обработки сигналов определенных измерений. Поэтому предлагается мультимодальный преобразователь, который можетСовместное кодирование разных модальностей в видео, позволяя каждому из них сосредоточиться на других модальностях.
2. Заключение
Автор вводит мультимодальный преобразователь, которыйВозможность обработки нескольких функций, извлеченных в разное время,а такжеНесколько функций, извлеченных из разных модальностей в видео. Кроме того, авторы также передают видеокодер и кодировщик субтитров в мультимодальную структуру слияния для сопоставления видео-субтитров.
3. Решение проблем
Первый вопросОбсуждается, как изучить точные представления текста и видео для построения оценок сходства.Потому что видео отличается не только внешне, но и движением, звуком, наложением текста. Голос и другие аспекты также отличаются. Правильное использование кросс-модальных отношений является ключом к созданию эффективных видеопредставлений.
Второй вопростемпоральность видео, так как сложно разобраться с переменной продолжительностью видео.
4. Метод реализации
Общий подход этой статьи можно резюмировать как функцию обучения при первом использовании.Вычислите сходство между видео и текстами, затем ранжируйте все видео (или тексты) в наборе данных на основе сходства поиска текста с видео (или видео с текстом) с текстом запроса (или видео). то есть для заданных n пар видео-текст, цель состоит в том, чтобы узнать функцию подобия между видео и текстом.как, то возвращается высокое значение сходства, в противном случае возвращается низкое значение сходства.
4.1 Video representation
Представление видеоуровня вычисляется мультимодальным преобразователем (MMT), предложенным в этой статье. Он состоит из сложенных слоев внутреннего внимания и полностью связанных слоев. Все вложения имеют одинаковую размерность, каждая функция одновременно включает семантику функции. Модальная и временная информация.
Это может быть выражено как:
Feature F
Для получения из видео информации разной модальности автор готовит n предварительно обученных «экспертов».. (По сути, это n предварительно обученных сетей извлечения признаков.), каждый эксперт представляет собой модель, обученную для конкретной задачи, а затем используемую для извлечения признаков из видео. Для видео v каждый эксперт извлекает последовательность из K признаков., каждый "эксперт"Размеры выхода, дабы унифицировать автора через N слоев ФКПроецировать в общий размерсередина.
Для «экспертной» сети из видео извлекается несколько «встраиваний». Для получения уникального «встраивания» и контекстуализации видео автор использует агрегацию max-pooling (агрегация max-pooling), получаяЗатем входная последовательность признаков для видеокодера принимает вид:
Expert embedding E
Для обработки кросс-модальной информации авторы используют nвстроенныйВложения используются для различения разных экспертов. Выражается в следующем виде:
Короче говоря, E используется для разграничения того, какой F принадлежит к одному и тому же модусу.
Temporal embeddings T
Учитывайте максимальную продолжительностьСекунды видео, автор узналразмерностьВстраивание функций. во временных рамкахКаждая экспертная функция, извлеченная внутри, будет встроенаT_{t+1}. Кроме того, авторы также изучают два других темпоральных вложения, используемый для кодирования агрегированных признаков и признаков неизвестной временной информации. Временная последовательность встраивания видеокодера принимает форму: Как показано на изображении выше, видео встроеноСумма вложений для функции E и T, которая также является входной функцией MMT, а именно:
Этот подход имеет два преимущества по сравнению с агрегированным пороговым механизмом:
- Внедрение входных данных не просто настраивается за один шаг, а итеративно оптимизируется через несколько уровней нескольких головок внимания.
- Авторы предоставляют извлеченные признаки для всех моментов, а также временной код, описывающий извлеченные признаки из видео.. Благодаря своему модулю самоконтроля каждый уровень нашего мультимодального Transformer способен обрабатывать все входные вложения, тем самым извлекая семантику событий, происходящих в видео, в нескольких модальностях.
4.2 Caption representation
Авторы делят его на два этапа для вычисления текстовых представлений.:
- получить встраивание текста
- Затем спроецируйте его в другое пространство. который, для функции встраивания h автор использует предварительно обученную модель BERT.
В частности, авторы извлекают вложения текста из вывода [CLS] BERT., чтобы сопоставить размер текстового представления с размером видео, изученную функцию g можно использовать в качестве нескольких вентилируемых модулей встраивания для соответствия различным видеоэкспертам. Таким образом, вложение текста может быть выражено как
Окончательное сходство текста видеоСходство видеотекста для каждого экспертаВзвешенная сумма , как показано ниже:впредставляет вес I-го эксперта. Этот вес представлен текстом вНанесите линейный слой сверху и реализуйте его со Softmax:
впредставляет вес линейного слоя. Причина использования взвешенной суммы заключается в том, что текст может не единообразно описывать все модальности в видео. Например, в видео, где мужчина в красном поет оперу, текст «Человек в красном» не содержит никакой информации, относящейся к звуку. Вместо этого текст «кто-то поет» должен сосредоточиться на вычислении сходства со звуковой модальностью.