Аннотация: мультимодальное машинное обучение направлено на создание модели из нескольких модальностей, которая может обрабатывать и сопоставлять информацию из нескольких модальностей. Учитывая разнородность данных, область MMML (мультимодальное машинное обучение) ставит перед собой множество уникальных задач, обычно пяти типов: представление, преобразование, согласование, слияние и совместное обучение.
Эта статья опубликована в сообществе HUAWEI CLOUD.«Обзор мультимодального обучения», автор оригинала: Маленький эксперт Finetune.
MultimodalMachine Learning: A Survey and Taxonomy
предисловие
Модальность относится к тому, как что-то происходит или переживается
Проблема с мультимодальными исследованиями заключается в том, что они включают несколько модальностей.
Мультимодальное машинное обучение направлено на создание модели из нескольких модальностей, которая может обрабатывать и сопоставлять информацию из нескольких модальностей.
Учитывая разнородность данных, область MMML (мультимодальное машинное обучение) представляет ряд уникальных проблем, в целом пять:
выражать: Самая фундаментальная задача — научиться представлять и обобщать модальные данные, используя взаимодополняемость и избыточность множества модальностей. Неоднородность модальностей создает проблемы для этого представления. Например: язык обычно представляет собой символическое представление, а речь обычно представляет собой сигнальное представление.
конвертировать: Как конвертировать (сопоставлять) данные из одной модальности в другую. Мультимодальность не только неоднородна по данным, но и отношения между модальностями обычно открыты или субъективны. Например, существует множество правильных способов описания изображения, для которых лучшего модального перевода может и не быть.
выровнять: модальное выравнивание в основном предназначено для выявления прямой связи между элементами (подэлементами) нескольких модальностей. Например, сопоставьте каждый шаг рецепта с кулинарным видео. Решение этой проблемы требует измерения сходства между различными модальностями и учета возможных долговременных зависимостей и неоднозначностей.
слияние: Соедините информацию из нескольких модальностей, чтобы сделать вывод. Например, при аудиовизуальном распознавании речи визуально описанные движения губ смешиваются со звуковыми сигналами, чтобы сделать вывод о произнесенных словах. Информация из разных модальностей имеет разную прогностическую способность и топологию шума при выводе, когда возможно отсутствие по крайней мере одной модальности данных.
совместное обучение: передача знаний между различными модальностями, представлениями и моделями прогнозирования. Есть типичные применения в совместном обучении, концептуальном обосновании и обучении с нуля. Это имеет смысл, когда определенная модальность имеет ограниченные ресурсы (мало помеченных данных).
Приложения: существует множество приложений, включая аудиовизуальное распознавание речи (AVSR), индексирование и поиск мультимедийных данных, понимание поведения при социальном взаимодействии, описание видео и т. д.
Мультимодальное представление
Мультимодальное представление должно решать проблемы: как совмещать разнородные данные, как работать с разными уровнями шума, как работать с отсутствующими данными.
Бенжио отмечает, что хорошее представление функций должно:
гладкий
пространственно-временная когерентность
редкий
естественная кластеризация
Шривастава и др. добавляют три пункта:
Пространство представления должно отражать соответствующее сходство понятий.
Представления должны быть легко доступны, даже если некоторые режимы отсутствуют.
Сделать возможным заполнение недостающих модальных окон
В предыдущих исследованиях (до 2019 г.) большинство мультимодальных представлений просто объединяли одномодальные функции.
Два мультимодальных метода представления: совместное представительство, согласованное представительство
Союз говорит:
Каждая мода равна x_i_xi_, x_m = f(x_1, \dots, x_n)_xm_=f(_x_1,…, _xn_)
Совместное представление часто используется в задачах, где и обучение, и логический вывод являются мультимодальными данными, а простейший метод — сращивание признаков.
Методы глубокого обучения:
Следующие уровни функций глубокого обучения, естественно, содержат высокоуровневую семантическую информацию, и часто используются функции последнего или предпоследнего уровня.
Поскольку для сетей глубокого обучения требуется большой объем размеченных данных, для предварительной подготовки представления признаков часто используются неконтролируемые методы, такие как автоэнкодеры.
Глубокое обучение не может решить проблему потери данных естественным путем
Вероятностная графическая модель:
Построение представлений объектов с использованием скрытых случайных переменных
Наиболее распространенный метод представления признаков, основанный на графовой модели, с использованием глубокой машины Больцмана (DBM), ограниченной машины Больцмана (RBM) в качестве модульной конструкции, аналогично глубокому обучению, расслоению признаков, является неконтролируемым методом.
Мы также используем сеть глубокого убеждения (DBN), чтобы охарактеризовать каждую модальность, а затем совместно представить ее.
Используя мультимодальную глубокую машину Больцмана для изучения мультимодального представления признаков, благодаря естественным генеративным характеристикам, она может легко решить проблему отсутствующих данных, а потеря всех модальных данных также может быть решена естественным образом; это также можно использовать определенную модальность для генерации другой выборки различных модальностей; недостатком DBM является то, что ее трудно обучать, она требует больших вычислительных ресурсов и требует методов обучения вариационной аппроксимации
Характеристика последовательности:
Когда длина данных представляет собой последовательность переменной длины, такую как предложение, видео- или аудиопоток, используйте представление последовательности
RNN и LSTM в настоящее время в основном используются для представления унимодальных последовательностей, и скрытое состояние RNN в определенный момент можно рассматривать как интеграцию признаков всех последовательностей до этого момента.
В AVSR Кози и др. использовали RNN для представления мультимодальных функций.
Синергия означает:
Каждая мода равна x_i_xi_, f(x_1) \sim g(x_2)f(x_1)∼_g(_x_2), каждая модальность имеет соответствующую функцию сопоставления, которая сопоставляет ее с мультимодальным пространством,Процесс проецирования для каждого режима независим, но конечное мультимодальное пространство представлено некоторым ограничением
Два метода совместного представления: модель сходства и структурированная модель, первая обеспечивает сходство представления признаков, а второй усиливает структуру в пространстве результатов признаков.
Модель подобия:
Модель подобия минимизирует расстояние между различными модальностями в пространстве совместного представления, например, расстояние между изображениями собаки и собаки меньше, чем расстояние между изображениями собаки и автомобиля.
Преимущество глубоких нейронных сетей в совместном представлении заключается в том, что они позволяют совместно изучать совместные представления сквозным образом.
Модель структурированного пространства для совместной работы:
Структурированная модель совместного представления обеспечивает дополнительные ограничения различных модальных представлений, конкретные структурированные ограничения зависят от приложения.
Структурированное совместное пространство представления обычно используется в кросс-модальном хешировании, которое сжимает многомерные данные в компактное двоичное представление, так что аналогичные объекты имеют аналогичные кодировки, и часто используется в кросс-модальном поиске.
Метод хеширования заставляет конечное представление мультимодального пространства иметь следующие ограничения: 1) N-мерное пространство Хэмминга, двоичное представление управляемых битов; 2) один и тот же объект разных модальностей имеет одинаковые хеш-коды; 3) множественное модальное пространство должно сохранять сходство данных.
Другой подход к структурированному совместному представлению основан на «последовательном встраивании» изображений и языков.
Например, Вендров и др. применяют меру несходства в мультимодальных пространствах, которая представляет собой асимметричное отношение частичного порядка. Основная идея состоит в том, чтобы зафиксировать отношения частичного порядка в представлении языка и изображений, создавая иерархическую структуру. Для изображения это отношение частичного порядка представляет собой «женщина, выгуливающая свою собаку»> «женщина, выгуливающая свою собаку»> «женщина, идущая».
Особый вид структурированного пространства для совместной работы основан на каноническом корреляционном анализе (ККА).
CCA использует линейную проекцию, чтобы максимизировать корреляцию двух случайных величин, повышая ортогональность нового пространства.
Модели CCA в основном используются для кросс-модального поиска и анализа речевых и визуальных сигналов.
Используя метод ядра, CCA можно расширить до KCCA, непараметрического метода, который менее масштабируем по мере роста размера обучающих данных.
Глубокий канонический корреляционный анализ DCCA предлагается в качестве альтернативы KCCA, который решает проблему масштабируемости и может получить лучшее пространство представления корреляции.
Глубокая корреляция RBM также может использоваться как метод кросс-модального поиска.
KCCA, CCA и DCCA — это неконтролируемые методы, которые могут только оптимизировать корреляцию представлений функций и получать общие функции для разных модальностей.
Другие методы, такие как автокодировщики глубокой канонической корреляции, методы максимизации семантической корреляции, также используются в структурированных представлениях совместного пространства.
Резюме: методы совместного и совместного представления являются двумя основными подходами к представлению мультимодальных признаков.
Методы совместного представления объектов проецируют мультимодальные данные в общее пространство представления объектов и лучше всего подходят для сценариев, в которых при выводе присутствуют данные из всех модальностей.
Метод совместного представления признаков проецирует каждую модальность в отдельное, но связанное пространство, что подходит для случаев, когда во время вывода возникает только одна модальность.
Методы совместного представления использовались для создания сцен с более чем двумя модальными представлениями, в то время как коспространственные представления часто ограничивались двумя модальностями.
Мультимодальная трансформация
Перевод из одной модальности в другую находится в центре внимания мультимодального машинного обучения.
Задача мультимодального преобразования состоит в том, чтобы, имея объект в одной модальности, создать тот же объект в другой модальности.
Например, имея изображение, мы можем сгенерировать предложение для описания изображения, или, учитывая текстовое описание, мы можем сгенерировать изображение, которое ему соответствует.
Мультимодальная трансформация изучается давно, ранний синтез речи, аудиовизуальная генерация речи, описание видео, кросс-модальный поиск.
В последнее время это развитие обусловлено сочетанием полей NLP и CV, а также крупномасштабных мультимодальных данных.
Популярное приложение: визуальное описание сцены (изображение, описание видео), помимо определения основной части и понимания визуальной сцены, также необходимо генерировать грамматически правильные и точные описательные предложения.
Мультимодальную трансформацию можно разделить на две категории:Экземплярные и генеративные методы, первый использует словарь для достижения модального преобразования, а второй использует модель для получения результатов преобразования.
Учитывая, что генеративные модели должны генерировать сигналы или последовательности символов (предложений), методы генеративных моделей более сложны. Поэтому многие ранние методы, как правило, используют методы на основе экземпляров для модального преобразования. Однако с развитием глубокого обучения генеративные модели также могут генерировать изображения, звуки и тексты.
Подход на основе экземпляров:
Методы на основе экземпляров ограничены обучающими данными — словарями (пары экземпляров, состоящие из исходной модальности, целевой модальности).
Два алгоритма: метод на основе поиска и метод на основе комбинации, первый использует искомые результаты преобразования напрямую, не изменяя их, а второй полагается на более сложные правила для построения результатов модального преобразования на основе большого количества искомых экземпляров.
Поисковый подход:
Методы, основанные на поиске, являются простейшими методами мультимодального преобразования.
Он опирается на ближайший образец, найденный в словаре, и использует его как результат преобразования
Поиск выполняется в унимодальном пространстве, а также может выполняться в промежуточном семантическом пространстве.
При заданном экземпляре исходной модальности, подлежащей преобразованию, одномодальное извлечение реализует модальное преобразование путем поиска ближайшего исходного экземпляра модальности в словаре, по сути, находя отображение из исходной модальности в целевую модальность через KNN. Некоторые типичные сценарии применения, такие как TTS, описание изображения и т. д. Преимущество этого подхода заключается в том, что требуется только представление одной модальности, что может быть достигнуто путем поиска. Однако из-за метода поиска необходимо учитывать изменение порядка результатов поиска. Проблема с этим подходом заключается в том, что экземпляры с высоким сходством в унимодальном пространстве не обязательно являются хорошими модальными преобразованиями.
Другой подход заключается в использовании промежуточного семантического пространства для достижения сравнения сходства. Этот метод обычно используется с совместным представлением, что должно быть связано с тем, что само пространство совместного представления накладывает ограничения сходства на векторное представление. Метод модального поиска в семантическом пространстве лучше, чем метод одномодального поиска, потому что его пространство поиска отражает обе модальности одновременно, что является более содержательным. В то же время он поддерживает двунаправленное преобразование, что не очень просто при одномодальном поиске. Однако методы поиска промежуточного семантического пространства требуют изучения семантического пространства, для чего требуется большое количество обучающих словарей (пары выборок исходной модальности, целевой модальности).
Комбинированный подход:
Улучшенные результаты модального преобразования за счет осмысленного объединения результатов поиска.
Описание медиа на основе композиции (описание медиа) в основном основано на предложениях описания на основе изображений, которые имеют такую же простую структуру.
Обычно комбинированные правила либо указываются вручную, либо генерируются эвристическим путем.
Самая большая проблема, с которой сталкивается метод на основе экземпляров, заключается в том, что его моделью является весь словарь, модель будет продолжать расти с увеличением набора данных, и вывод будет медленным; другая проблема заключается в том, что если весь словарь не очень большой, он не может охватить все возможные источники модального запроса. Эта проблема может быть решена с помощью различных комбинаций моделей. Методы мультимодального преобразования на основе экземпляров являются однонаправленными, в то время как методы на основе семантического пространства могут выполнять двунаправленное преобразование между исходной и целевой модальностями.
Генеративный метод:
Генеративные методы строят модели в мультимодальных преобразованиях, которые способны к мультимодальным преобразованиям с учетом одного модального экземпляра.
Проблема заключается в необходимости понимания исходных модальностей для создания целевых последовательностей, сигналов
Существует много возможных правильных преобразований, поэтому эти методы трудно оценить.
Три генеративных метода: основанный на грамматике, кодировщик-декодер, непрерывная генеративная модель, первый метод использует грамматику для определения целевого домена, например, генерация предложений на основе шаблонов, таких как
Модель, основанная на правилах грамматики:
Зависит от предопределенного синтаксиса для создания конкретной схемы
Этот метод сначала обнаруживает высокоуровневые значения исходных модальностей, таких как объекты на изображениях, поведение в видео; затем эти обнаружения передаются в процесс создания предопределенной грамматики для получения целевых модальностей.
Некоторые методы, основанные на грамматике, полагаются на графовые модели для создания целевых схем.
Особенность методов, основанных на грамматике, заключается в том, что они имеют тенденцию генерировать структурно или логически правильные экземпляры утверждений, потому что они основаны на заранее определенных шаблонах, уточненных грамматиках.
Недостатком является то, что он генерирует грамматические результаты вместо инновационного преобразования и не генерирует новый контент; а методы, основанные на грамматике, опираются на сложные понятия, конвейер обнаружения этих понятий очень сложен, и извлечение каждого понятия может потребовать отдельного модель и отдельный обучающий набор
Модель декодера кодировщика:
Основанная на сквозном обучении нейронной сети, это самая популярная технология мультимодального преобразования в последнее время.
Основная идея состоит в том, чтобы закодировать исходную модальность в ограниченное векторное представление, а затем использовать модуль декодера для генерации целевой модальности.
Первоначально используемый для машинного перевода, он успешно использовался для комментариев к изображениям и описания видео; в настоящее время он в основном используется для создания текста, а также может использоваться для создания изображений и непрерывной речи и звука.
кодирование: Сначала закодируйте исходный экземпляр в определенную модальность. Наиболее популярными методами кодирования звуковых сигналов являются RNN и DBN; дистрибутивная семантика и варианты RNN обычно используются для кодирования слов и предложений; CNN используется для изображений; искусственные признаки все еще широко используются при кодировании видео. Также можно использовать один метод модального представления, например совместное представление, для получения лучших результатов.
расшифровка: Обычно используется RNN или LSTM, а в качестве начального скрытого состояния используется закодированное представление признаков. Венугопалан и др. подтвердили, что использование предварительно обученного декодера LSTM для подписи к изображениям выгодно для задач создания подписей к видео. Проблема с использованием RNN заключается в том, что модели необходимо генерировать описание из одного изображения, предложения или видеовекторного представления. Когда необходимо сгенерировать длинные последовательности, модель забывает первоначальный ввод. Эту проблему можно решить с помощью механизма внимания, который позволяет сети уделять больше внимания частям изображений, предложений и видео в процессе генерации. Генеративные RNN, основанные на внимании, также использовались для создания изображений из предложений, нереальных, но многообещающих.
Сети на основе кодировщик-декодер, хотя и успешны, все еще сталкиваются со многими проблемами. Девлин и др. указали, что сеть, возможно, запомнила обучающие данные, а не научилась понимать и генерировать визуальные сцены. Он заметил, что результаты, полученные моделью kNN, очень похожи на результаты, полученные сетью кодер-декодер. Масштаб обучающих данных, требуемых моделью кодер-декодер, очень велик.
Непрерывная генеративная модель:
Непрерывная генеративная модель для трансляции последовательности и онлайн-способ генерирования выходных данных для каждой временной метки.
Этот метод хорошо работает при преобразовании из последовательности в последовательность, например, преобразования текста в речь, речи в текст, видео в текст.
Для этого моделирования также было предложено множество других методов: графические модели, методы непрерывного кодека, различные другие методы регрессионной классификации. Дополнительная проблема, которую должны решить эти модели, — временная согласованность между модальностями.
В последнее время модель Encoder-Decoder обычно используется для моделирования преобразования последовательности.
Резюме и обсуждение:
Большая проблема с мультимодальным переводом заключается в том, что его трудно оценить, некоторые задачи (например, распознавание речи) имеют правильный перевод, но такие вещи, как синтез речи и описание медиа, нет. Иногда, как в сценарии языкового перевода, правильными являются несколько ответов, и вопрос о том, какой перевод лучше, часто очень субъективен. В настоящее время большое количество приближенных автоматизированных критериев оценки также помогает в оценке результатов модального преобразования.
Человеческие критерии оценки идеальны. Также были предложены некоторые автоматические индикаторы оценки, такие как те, которые обычно используются в описаниях носителей: BLEU, ROUGE, Meteor и CIDEr, но они получили неоднозначные отзывы.
Решение проблемы оценки важно не только для сравнения различных подходов, но и для обеспечения лучших целей оптимизации.
Мультимодальное выравнивание
Мультимодальное выравнивание относится к поиску соответствия между подкомпонентами в случаях двух или более модальностей.
Например: дана картинка и описание, найти слова или фразы, соответствующие областям на картинке; другой пример дан фильм, выровнять его по субтитрам или главам в книге
Мультимодальное выравнивание делится на две категории: неявное выравнивание и явное выравнивание, которые сосредоточены на соответствии между подкомпонентами между модальностями явного выравнивания и отображения, например, выравнивание соответствующих шагов в видео и рецептах; неявное выравнивание часто используется как одна из других задач. Ссылки, такие как текстовый поиск изображений, выравнивают ключевые слова с областями изображения
выравнивание отображения
Меры подобия между подкомпонентами являются основой для выявления согласованности, и два типа алгоритмов являются неконтролируемыми и (слабо) контролируемыми.
Бесконтрольный метод:
Неконтролируемые методы не требуют аннотаций для интермодального выравнивания.
Динамическая деформация времени измеряет сходство двух последовательностей и находит оптимальное соответствие, что является методом динамического программирования. Поскольку DTW требует предопределенной меры подобия, CCA (канонический корреляционный анализ) можно использовать для сопоставления модальностей с пространством совместного выражения.И DTW, и CCA являются линейными преобразованиями и не могут найти нелинейные отношения между модами.
Графические модели также можно использовать для выравнивания неконтролируемых мультимодальных последовательностей.
Методы DTW и графические модели для мультимодального выравнивания должны подчиняться некоторым ограничениям, таким как временная согласованность, отсутствие больших скачков во времени и монотонность. DTW может одновременно изучать меры подобия и модальные выравнивания, а методы графической модели требуют экспертных знаний в процессе моделирования.
(Слабые) контролируемые методы:
Контролируемые методы требуют аннотированных экземпляров модального выравнивания для обучения меры сходства в модальном выравнивании.
Многие контролируемые методы выравнивания последовательностей основаны на неконтролируемых методах.
Текущие методы глубокого обучения для согласования модальностей более распространены.
Неявное выравнивание:
Часто используется в качестве промежуточного шага для других задач, таких как распознавание речи, машинный перевод, мультимедийное описание и визуальные ответы на вопросы для повышения производительности.
Ранние работы основаны на графовых моделях, нынешние больше основаны на нейронных сетях.
Графическая модель:
Необходимо вручную построить сопоставление отношений между модальностями.
Нейронные сети:
Модальные переходы Производительность задачи может быть улучшена, если можно использовать модальное выравнивание.
Простое использование кодировщика может суммировать все изображение, предложение и видео только путем настройки весов в виде единого векторного представления; введение механизма внимания позволяет декодеру обращать внимание на подкомпоненты. Механизм внимания заставит декодер уделять больше внимания подкомпонентам
Механизм внимания можно рассматривать как идиоматический метод модального выравнивания глубокого обучения.
резюме:
Модальное выравнивание сталкивается со многими трудностями: несколько наборов данных показывают аннотированное модальное выравнивание; трудно разработать меры сходства между модальностями; существует несколько возможных модальных выравниваний, и элементы в одной модальности могут быть в другой
Мультимодальный сплав
Мультимодальное слияние - это интеграция информации из нескольких модальностей для задач классификации или регрессии.Исследования мультимодального слияния можно проследить до 25 лет назад.
Преимущества мультимодального слияния: 1) разные модальные представления одного и того же явления могут давать более надежные результаты вывода; 2) вспомогательная информация может быть получена из нескольких шкал, причем информация отличается в одной модальности. -модальная система, модальное слияние все еще может нормально работать, когда один из режимов исчезает
Границы текущего мультимодального представления и слияния размываются, поскольку задачи обучения представлению и классификации/регрессии переплетаются в глубоком обучении.
Два мультимодальных гибридных подхода: независимый от модели и основанный на модели подход, первое не зависит напрямую от конкретного метода машинного обучения, второе показывает слияние при построении (методы ядра, графические модели, нейронные сети)
Независимые от модели методы:
Модельно-независимые методы, три: предварительное слияние, пост-слияние и гибридное слияние.
Раннее слияние — это слияние уровней признаков, а позднее слияние — это слияние результатов логического вывода.Гибридное слияние включает два метода слияния одновременно.
Преимущества независимого от модели подхода слияния:Совместимость с любым классификатором или регрессором
Раннее слияние можно рассматривать как раннюю попытку мультимодального представления.
Более позднее слияние использует результаты прогнозирования одной модальности и выполняет слияние с помощью механизма голосования, взвешивания, дисперсии сигнала или модели. Позднее слияние игнорирует отношения между модальными базовыми функциями
Модельный подход:
Многоядерное обучение (MKL)
Расширение ядра SVM, использующее разные ядра для разных модальностей.
Метод MKL является наиболее часто используемым методом до глубокого обучения,Преимущество состоит в том, что функция потерь выпукла, и для обучения модели можно использовать стандартные пакеты оптимизации и методы глобальной оптимизации, а недостатком является низкая скорость вывода набора данных во время тестирования.
Графическая модель:
В этом обзоре рассматриваются только модели с мелкими графами, модели с глубокими графами, такие как DBN, см. в предыдущих главах.
Большинство графических моделей можно разделить на две категории: генеративные (совместная вероятность) и дискриминативные (условная вероятность).
Графовая модель может легко исследовать пространственную и временную структуру данных и может включать в модель экспертные знания, а модель также может объяснять
Нейронные сети:
Модальности и методы оптимизации, используемые нейронными сетями для слияния мод, могут быть разными, а идея слияния информации через совместные скрытые слои одна и та же.
Нейронные сети также используются для мультимодального слияния временных рядов, обычно с использованием RNN и LSTM, типичным приложением является аудиовизуальная классификация эмоций, объяснение изображений.
Преимущества глубокой нейронной сети для модального слияния: 1) Она может учиться на большом количестве данных; 2) Сквозное обучение многомодальному представлению признаков и слиянию; 3) По сравнению с методами неглубокого обучения, она имеет лучшая производительность и может изучить сложные границы принятия решений
Недостатки: плохая интерпретируемость, неизвестно, на чем основывается сеть, и не известна роль каждой модальности; для получения хороших результатов требуется много обучающих данных.
резюме:
Задача мультимодального слияния имеет следующие проблемы: 1) сигналы могут быть не выровнены по времени, например, плотные непрерывные сигналы по сравнению с разреженными событиями; 2) трудно построить модель для обнаружения дополнительной информации, а не вспомогательной информации; 3) каждый режим Состояние может демонстрировать различные типы и уровни шума в разные моменты времени.
Мультимодальное совместное обучение
Мультимодальное совместное обучение направлено наПомогает моделировать текущий режим, раскрывая информацию о другом режиме
Связанные сценарии: модальность с ограниченными ресурсами, отсутствием помеченных данных или высоким входным шумом и низкой надежностью пометки.
Три метода совместного обучения: параллельный, непараллельный, гибридный; первый метод требует прямой связи между наблюдением одной модальности и наблюдением другой модальности, например аудиовизуальных речевых данных и выше, видео и речи. от одного и того же докладчика; метод непараллельных данных не требует прямой связи двух наблюдений и обычно использует пересечение между категориями, например, использование текстовых данных Wiki в обучении с нулевым выстрелом для расширения традиционного набора данных визуального распознавания объектов. для повышения производительности распознавания объектов; Подход смешанных данных через общий модальный режим или подключение к данным
Параллельные данные:
Совместное использование набора экземпляров между модальностями, два подхода: совместное обучение и репрезентативное обучение.
Совместное обучение:
Когда размеченные данные определенной модальности очень малы, путем совместного обучения может быть сгенерировано больше размеченных обучающих данных, или ненадежные размеченные выборки могут быть отфильтрованы с помощью несоответствия между модальностями.
Методы совместного обучения могут генерировать больше помеченных данных, но также могут привести к переобучению.
Трансферное обучение:
Мультимодальные машины Больцмана или мультимодальные автоэнкодеры преобразуют одно модальное представление признаков в другое, так что можно получить не только мультимодальные представления, но и в процессе вывода для одиночных модальностей.
Непараллельные данные:
Нет необходимости полагаться на экземпляры, общие для модальностей, есть общие категории или концепции.
Трансферное обучение:
Трансферное обучение может переходить от модального представления функции обучения с достаточными и чистыми данными к другой модальности с недостаточными данными и высоким уровнем шума.Этот вид трансферного обучения обычно реализуется с помощью мультимодального совместного представления функций.
Концептуальное обоснование:
Изучение семантического значения с помощью языка и других дополнительных модальностей, таких как зрение, звук и даже вкус простых символов.
Заземление обычно выполняется путем нахождения общего скрытого пространства между представлениями функций или изучения представления функций каждой модальности отдельно, а затем объединения.
Существует высокая степень совпадения между концептуальным обоснованием и согласованием мультимодальных признаков, поскольку согласование визуальной сцены и соответствующего описания может само по себе привести к лучшему текстовому или визуальному представлению признаков.
должны знать о том,Заземление не приводит к улучшению производительности во всех случаях, только когда заземление имеет отношение к конкретным задачам., такие как заземление с помощью изображений в задачах, связанных со зрением
Обучение с нулевым выстрелом:
Задача ZSL относится к распознаванию концепции без демонстрации каких-либо увиденных образцов, например, к классификации кошек на картинках без предоставления изображений кошек.
Два метода: одномодальный метод и мультимодальный метод
Унимодальный метод: сосредоточьтесь на компонентах и атрибутах категории, которые необходимо распознать, таких как визуальные аспекты, чтобы предсказать категорию, которая была замечена с помощью таких атрибутов, как цвет, размер, форма и т. д.
Мультимодальный подход: используйте информацию из другой модальности, в которой появилась категория.
Смешанные данные:
Соединение двух непараллельных модальностей данных через общие модальности или наборы данных, типичные задачи, такие как описание изображения на нескольких языках, изображения будут связаны по крайней мере с одним языком, а задачи машинного перевода могут использоваться между языками.
Если целевая задача имеет лишь небольшой объем размеченных данных, аналогичные или связанные задачи также можно использовать для повышения производительности, например, используя большой текстовый корпус для руководства задачей сегментации изображения.
резюме:
Мультимодальное совместное обучение позволяет одной модальности влиять на процесс обучения другой модальности, находя дополнительную информацию между модальностями.
Мультимодальное совместное обучение не зависит от задачи и может использоваться для лучшего слияния, преобразования и согласования мультимодальных функций.
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~