Как ИИ может читать эмоции говорящих?

искусственный интеллект

Аннотация: В этой статье представлено современное состояние, проблемы распознавания речевых эмоций и основное внимание уделяется решению проблемы отсутствия размеченных данных.

Эта статья опубликована в сообществе Huawei Cloud Community "Приложения и проблемы распознавания речи и эмоций", автор SSIL_SZT_ZS.

Эмоции играют важную роль в общении между людьми. Распознавание эмоций имеет большое прикладное значение, а успешное определение эмоционального состояния человека имеет большое значение для социальных роботов, медицинского обслуживания, оценки качества образования и некоторых других систем взаимодействия человека с компьютером. Основные пункты этой статьи:

1. Базовые знания и сценарии применения распознавания эмоций.
2. Внедрение технологии распознавания речевых эмоций и проблемы, с которыми она сталкивается.
3. Как решить проблему нехватки данных, какое у нас решение.

1. Что такое распознавание эмоций?

Эмоция – это отношение человека к внешнему событию или разговорной деятельности. Человеческие эмоции обычно делятся на: радость, гнев, печаль, страх и удивление. Машина анализирует собранные сигналы для получения эмоционального состояния человека, этот процесс и есть распознавание эмоций. Обычно сигналы, которые можно использовать для распознавания эмоций, включают два аспекта: один — физиологические сигналы, такие как дыхание, частота сердечных сокращений и температура тела, а другой — поведенческие проявления, включая мимику, речь, жесты и так далее. Лица и речь часто используются для определения эмоций объектов благодаря их простому усвоению. Распознавание эмоций помогает системе понять эмоциональное состояние объекта и его отношение к теме или проблеме.

В процессе взаимодействия между продуктами искусственного интеллекта (ИИ) и людьми, если можно точно понять текущее эмоциональное состояние людей и значительно улучшить реакцию, основанную на эмоциональном состоянии, пользовательский опыт продуктов ИИ может быть значительно улучшен. Это имеет большое значение в рекомендациях по продукту, мониторинге общественного мнения и диалоге между человеком и машиной. Например, в процессе продаж понимание удовлетворенности пользователей продуктами может помочь платформам сформулировать лучшие стратегии продаж, в кино- и телеиндустрии понимание эмоций зрителей по поводу программ может помочь сформулировать более захватывающие сюжеты и организовать конкретные программы. диалог между человеком и машиной, понимание эмоционального состояния людей может помочь интеллектуальным роботам давать соответствующие ответы, своевременно выражать комфорт и понимание и улучшать пользовательский опыт; с точки зрения общественного мнения, административный отдел понимает эмоции общественности в отношении популярных события имеют тенденцию улавливать направление общественного мнения, чтобы более своевременно и эффективно отслеживать общественное мнение и оказывать поддержку в разработке политики. Распознавание эмоций также можно применять во многих реальных сценариях. Алгоритмы распознавания эмоций имеют большое исследовательское значение.

Учитывая сложность приобретения, конфиденциальность и другие факторы, работа в этой статье сосредоточена на задаче распознавания речи, эмоций (SER), которая использует речь для распознавания эмоций говорящего.

2. Введение в технологию распознавания речевых эмоций

Речь является основным средством общения в повседневной жизни, она не только передает мысли, но и выражает эмоциональное состояние говорящего. Целью распознавания речевых эмоций является определение эмоциональных состояний человека по речи. В основном он включает два этапа: извлечение признаков и построение классификатора.

Входной аудиосигнал представляет собой приблизительно непрерывное числовое значение. Для извлечения аудиофункций звук обычно сначала кадрируется, обрабатывается окнами и подвергается кратковременному преобразованию Фурье (STFT). Затем получаются спектральные характеристики с размерностью T\timesD_T_×_D_, где T_T_ указывает, что количество кадров связано с продолжительностью времени, D_D_ — размерность признака, а каждое измерение соответствует разной частоте. Есть некоторая работа, которая также выполняет мел-фильтрацию этого спектра.

Спектральные признаки содержат богатую информацию, такую ​​как содержание речи, ритм, тон, интонация и т.д. Извлечение признаков речи, связанных с эмоциями, все еще является незрелым направлением исследований. Появление глубокого обучения упрощает процесс извлечения искусственных признаков с использованием подхода, управляемого данными, с использованием меток тональности в качестве контрольных сигналов для обучения глубоких моделей извлечению скрытых семантических характеристик, связанных с тональностью. Из-за характеристик сериализации аудиовхода глубокое извлечение признаков обычно также имеет методы, основанные на CNN/GRU/LSTM, или методы, основанные на CRNN или CNN+Attention.

Традиционные методы машинного обучения могут создавать классификаторы на основе признаков искусственной речи или признаков глубокой речи, таких как гауссовская смешанная модель (GMM), скрытая марковская модель (HMM), машина опорных векторов (SVM) и другие классические методы. Кроме того, благодаря развитию глубокого обучения, классификаторы на основе нейронных сетей можно обучать от начала до конца вместе с глубокими экстракторами признаков для получения классификаторов тональности.

3. Проблемы распознавания речевых эмоций

Мы представили методы, обычно используемые для анализа речевых эмоций, но распознавание речевых эмоций также сталкивается с некоторыми проблемами на практике:

  1. Проблемы эмоциональной субъективности и двусмысленности. Распознавание речевых эмоций является относительно молодой областью, и в ней отсутствуют официальные стандарты для определения эмоций. У разных слушателей могут быть разные мнения об эмоциональности одной и той же речи. Кроме того, речевое произведение часто имеет эмоциональные изменения и весьма субъективно, что обуславливает отсутствие универсальности во многих исследовательских работах.
  2. Проблемы извлечения и выбора эмоциональных признаков: наличие различных носителей речи, переменных категорий эмоций и разной длины речевых фрагментов приводит к тому, что искусственно созданные признаки не могут охватить всю эмоциональную информацию. С другой стороны, глубокие черты, хотя и хороши, не поддаются интерпретации.
  3. Отсутствие размеченных данных: методы глубокого обучения требуют большого количества высококачественных размеченных данных для достижения хорошей производительности. Ввиду субъективности и неоднозначности эмоций, маркировка речевой эмоции является длительной и трудоемкой, требует большого количества специалистов. Сбор большого количества данных эмоциональных аннотаций является актуальной проблемой, требующей решения в области распознавания речевых эмоций.

4. Как решить проблему нехватки данных?

Данные — это движущая сила глубокого обучения, а крупномасштабные высококачественные данные — ключ к успеху глубокого обучения. Однако во многих практических задачах имеется лишь небольшое количество помеченных данных из-за стоимости маркировки, что сильно ограничивает развитие методов глубокого обучения. С развитием социальных платформ в Интернете каждый день создается большое количество мультимедийных данных, и легко получить крупномасштабные немаркированные данные. Это привело к разработке методов обучения с полуучителем (Semi-Supervised Learning), которые могут использовать как размеченные, так и неразмеченные данные. С другой стороны, мультимедийные данные обычно содержат несколько модальностей, поэтому также проводится некоторая работа по изучению использования знаний аннотаций одной модальности для усиления воздействия задач на другую модальность. Оба метода описаны ниже.

4.1 Полуконтролируемое обучение

Полууправляемое обучение обычно имеет два набора данных: небольшой помеченный набор данных и крупный неразмеченный набор данных. Его цель — использовать немаркированные данные для усиления эффекта контролируемого обучения. Классические методы обучения с полуучителем включают в себя множество категорий, таких как самообучение (алгоритм самообучения), генеративные модели (генерирующая модель), SVM (машина опорных векторов с полуучителем), методы на основе графов (метод теории графов), многопредставленное обучение (многопредметное обучение). -алгоритм просмотра) и т.д. Подождите. Основные категории полуконтролируемых методов обучения описаны ниже.

  • Простой алгоритм самообучения (самообучение)
    Шаги алгоритма самообучения: (1) сначала используйте размеченные данные обучающего набора для обучения классификатора; (2) используйте классификатор для классификации неразмеченных данных и вычисления ошибки; (3) выберите выборку с меньшим ошибка в результате классификации, добавляя результат классификации в качестве метки к обучающему набору. Повторяйте процесс обучения, пока все немаркированные данные не будут помечены.
  • Многопрофильное обучение
    Это своего рода алгоритм самообучения. Предполагается, что любые данные могут быть классифицированы с разных точек зрения. Шаги алгоритма следующие: (1) обучать разные классификаторы с помощью размеченных наборов данных с разных точек зрения, (2) использовать эти классификаторы для классификации неразмеченных данных с разных точек зрения, (3) выбирать доступные данные в соответствии с несколькими результатами классификации. буквы добавляются в обучающую выборку. Зациклить предыдущий тренировочный процесс. Преимущество этого метода в том, что результаты прогнозирования с разных ракурсов могут дополнять друг друга, тем самым повышая точность классификации.
  • МеткаРаспространениеАлгоритм
    Алгоритм распространения меток — это частично контролируемый алгоритм на основе графа, который находит взаимосвязь между немаркированными данными и помеченными данными путем создания структуры графа, а затем распространяет метки через эту взаимосвязь.

Метод полууправляемого обучения в глубоком обучении называется полууправляемым глубоким обучением. Полууправляемое глубокое обучение в основном включает три категории: тонкая настройка, алгоритм самообучения, основанный на глубоком обучении, полууправляемый способ обучения нейронной сети.

Метод тонкой настройки использует немаркированные данные для обучения сети (реконструированный автоэнкодер или основанный на обучении псевдометки), а затем использует помеченные данные для точной настройки целевой задачи.

Основные этапы самообучения на основе метода глубокого обучения: (1) использовать помеченные данные для обучения глубокой модели; (2) использовать глубокую модель в качестве классификатора или использовать глубокую функцию для классификации неразмеченных данных; ( 3) Выберите степень выполнения. Старшие добавляются в размеченный обучающий набор, и процесс повторяется.

Полууправляемые методы обучения глубоких сетей включают множество методов, таких как Pseudo-Label[1], LadderNetworks[2], TemporalEnsembling[3], Meanteachers[4] и FixMatch и т. д. Ниже мы представляем несколько основных работ.

1. Метод псевдометки [1]
Этот метод использует результат прогнозирования сети на немаркированных данных в качестве метки немаркированных данных для обучения сети. Хотя метод прост, эффект очень хороший. На рисунке ниже видно, что после добавления неразмеченных данных точки данных одной категории сгруппированы более тесно.

2.TemporalEnsembling[3]
TemporalEnsembling — это развитие метода Pseudo-Label. Его цель состоит в том, чтобы создать лучшие псевдометки. На рисунке ниже показана структура этого метода, который имеет две разные реализации: π_π_-модель и темпоральный ансамбль.

Неконтролируемая стоимость π_π_-модели заключается в том, что входные данные модели должны быть согласованными для одних и тех же входных данных при различных условиях регуляризации или дополнения данных, что может побудить сеть изучить инвариантность данных.
Temporalensembling выполняет скользящее среднее предсказанного z_i_zi_​ для каждой итерации, чтобы получить \hat{z_i}_zi_​^​ в качестве контрольного сигнала для неконтролируемого обучения.

3.Meanteacher[4]
Метод Меантечера использует другой подход и улучшает качество псевдометок с точки зрения модели, которая придерживается принципа «среднее — лучшее». Параметры модели ученика после каждой итерации усредняются по весу для получения модели учителя, а затем модель учителя используется для построения высококачественных псевдометок для контроля немаркированных потерь модели ученика.

4.FixMatch[5]
FixMatch продвигает принцип регуляризации непротиворечивости в методе TemporalEnsembling, то есть при различных аугментациях одной и той же выборки модель должна получать согласованные результаты, тем самым обучаясь инвариантности в пределах данных. Таким образом, метод FixMatch использует слабо расширенные выборки для создания псевдометки и использует эту псевдометку для контроля выходных данных модели для сильно расширенных выборок.

4.2 Межмодальная передача знаний

Кросс-модальная передача знаний основана на внутренней взаимосвязи между различными модальностями в мультимедийных данных, и информация аннотации передается из одной модальности в целевую модальность для реализации аннотации данных. Как показано на рисунке ниже, кросс-модальная передача знаний включает в себя передачу зрения в речь, передачу текста в изображение и многое другое. Ниже представлены несколько классических кросс-модальных работ по передаче знаний.

1. Анализ тональности изображения на основе кросс-медийной передачи [6]
Этот метод использует данные парного текстового изображения в Твиттере для выполнения задачи анализа тональности изображения. Конкретные шаги заключаются в следующем.

Он использует обученный классификатор тональности текста для классификации тональности текста, а затем напрямую присваивает метку соответствующему изображению. Затем классификатор настроений изображений обучается с использованием изображений с псевдоаннотациями.

2.SoundNet[7]

Реализуйте передачу знаний из визуальной модальности в голосовую модальность через предварительно обученные сети распознавания видеообъектов и сцен и используйте переданные метки для обучения голосовых моделей для полной классификации голосовых сцен или голосовых объектов.

3.EmotionRecognitioninSpeechusingCross-ModalTransferintheWild[8]

Этот метод использует предварительно обученную модель распознавания эмоций по лицу в качестве модели учителя, а затем использует результаты прогнозирования модели учителя для обучения модели распознавания речевых эмоций.

5. Наше решение для распознавания эмоций речи

В этом разделе представлен наш подход к решению проблемы отсутствия помеченных данных.

Совместная кросс-модальная передача знаний и полуконтролируемые методы обучения

Чтобы решить проблему нехватки данных в области распознавания речевых эмоций, мы предлагаем в 2021 году совместную кросс-модальную архитектуру передачи знаний и обучения с полуучителем. Этот метод достигает современного уровня развития речи. задачи распознавания эмоций в наборах данных CH-SMIS и IEMOCAP. В то же время мы опубликовали эту работу в системе знаний журнала SCI и опубликовали статью «Сочетание кросс-модальной передачи знаний и полуконтролируемого обучения для распознавания движений речи». Ниже представлена ​​схема архитектуры нашего решения:

Наша схема основана на двух наблюдениях:

  1. В прямом кросс-модальном переносе метки есть ошибка, потому что связь между эмоцией лица и эмоцией речи очень сложна и не вполне постоянна.
  2. Методы полууправляемого обучения не работают хорошо, когда очень мало помеченных данных. Ошибка предсказания модели может постоянно увеличиваться, что приводит к неточности модели в некоторых категориях.

Вдохновленный идеей обучения с несколькими представлениями, наш метод использует наличие двух модальностей в видеоданных, идентифицирует эмоции в обеих модальностях и объединяет их для получения более точных псевдометок. Для распознавания речевых эмоций эта схема сначала извлекает особенности речи STFT, а затем выполняет расширение данных Specaugment. Из-за успеха Transformer в моделировании данных последовательности эта схема использует кодировщик Transformer для кодирования речи и, наконец, использует объединение средних значений для получения характеристик речи и классификации эмоций.

Кросс-модальная передача знаний

Чтобы выполнить кросс-модальную передачу эмоций, эта схема использует большое количество наборов данных выражений лица для обучения мощной модели распознавания выражений лица, основанной на модели MobileNet. Используйте эту модель, чтобы выполнить распознавание выражения лица на кадрах изображения, извлеченных из видео. Затем результаты распознавания нескольких кадров объединяются, чтобы получить результат предсказания выражения лица всего сегмента видео.

Полуконтролируемое распознавание эмоций речи

Вдохновленные предположением о согласованности регуляризации в FixMatch, мы разрабатываем полууправляемый метод распознавания речевых эмоций. В частности, этот метод использует два типа дополнения для ввода образцов речи: использование алгоритма сильного дополнения SpecAugment для получения спектральных характеристик сильно искаженной версии речи и использование метода слабого дополнения (выпадение признаков и т. д.). .) для получения небольшого изменения голосовых характеристик. Модель использует слабо дополненные образцы для создания псевдометок, чтобы контролировать обучение сильно дополненных образцов.

Сочетание полуконтролируемого обучения с кросс-модальной передачей знаний

В каждой итерации модели метод использует слабо дополненные образцы для создания псевдометки, которая затем объединяется с псевдометкой, передаваемой через модальности, для улучшения качества псевдометки. В этой работе исследуются два метода слияния: взвешенное суммирование и согласованность с несколькими представлениями. После получения высококачественной псевдометки используйте эту метку для наблюдения за обучением расширенных образцов.

Модель постоянно улучшает качество псевдометок посредством нескольких итераций.

По сравнению с полууправляемыми методами обучения и кросс-модальными методами наш метод обеспечивает наилучшие результаты как для наборов данных CH-SIMS, так и для наборов данных IEMOCAP. Результат выглядит следующим образом:

использованная литература

[1]Pseudo-Label:TheSimpleandEfficientSemi-SupervisedLearningMethodforDeepNeuralNetworks
[2]Semi-SupervisedLearningwithLadderNetworks
[3]TemporalEnsemblingforSemi-supervisedLearning
[4]Meanteachersarebetterrolemodels:Weight-averagedconsistencytargetsimprovesemi-superviseddeeplearningresults
[5]FixMatch:SimplifyingSemi-SupervisedLearningwithConsistencyandConfidence
[6]Cross-MediaLearningforImageSentimentAnalysisintheWild
[7]SoundNet:LearningSoundRepresentationsfromUnlabeledVideo
[8]EmotionRecognitioninSpeechusingCross-ModalTransferintheWild

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~