Мои мнения о документах по анализу речевых тональностей на INTERSPEECH 2020

искусственный интеллект

Резюме: в этой статье представлено краткое изложение 8 из 25 статей в InterSpeech2020 Speech Sentiment Analysis.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Краткий обзор отчета по анализу речевых настроений INTERSPEECH2020 1», Оригинальный автор: Tython.

1. Представления на уровне обучения речи со сглаживанием меток для распознавания речи, эмоций (INTERSPEECH2020)

(1) Обработка данных: четыре категории IEMOCAP, исключение одного говорящего, невзвешенная точность. openSMILE извлекает 147-мерные функции LLD за короткие промежутки времени.

(2) Метод моделирования: LSTM используется для моделирования последовательности признаков нескольких сегментов предложения, выходная последовательность признаков группируется и сжимается с помощью NetVLAD, а исходное измерение N*D уменьшается до K*D, а затем размер уменьшен.Последние функции подлежат классификации softmax. На метке категории автор применяет стратегию сглаживания меток (labelsmoothing), то есть в процессе обучения добавляет несовпадающие (X, y) пары данных, также называемые меткой-выпадением (отбрасывание реальных меток и замена их другими). , и назначьте метку с небольшим весом. Это улучшает адаптивность модели и уменьшает переоснащение.

(3) NetVLAD — это VLAD, полученный из метода извлечения признаков изображения Путем кластеризации векторов признаков изображения получается центр кластера и создается остаток, а также метод сжатия ряда локальных признаков в глобальный признак определенного размера. Для получения подробной информации см.zhuanlan.zhihu.com/p/96718053

(4) Эксперимент: NetVLAD можно рассматривать как метод объединения, а итоговая WA достигает 62,6%, что на 2,3 процентных пункта выше, чем при взвешенном объединении. Эффекты до и после сглаживания меток составляют 59,6% и 62% соответственно, разница составляет два процентных пункта.

(5) Резюме: самый большой вклад заключается в выполнении операции объединения функций, подобной NetVLAD, для функций каждого кадра для отображения полезных функций; кроме того, в метод обучения также введена операция сглаживания меток, которая улучшает эффект в двух точках.

2. Устранение предвзятости с помощью остаточного смешения многопланового внимания для распознавания речи, эмоций (INTERSPEECH2020)

(1) Обработка данных: четыре категории данных IEMOCAP, обучение Session1-4, тестирование Session5. Извлечение признаков 23-мерного лог-Melfilterbank.

(2) Модельный метод: высказывание делится на N кадров, и по очереди вводятся BLSTM (узлы скрытого уровня 512), чтобы получить матрицу размера N * 1024, и вводится первый уровень внимания 1. Выход этого слоя объединяется с исходной матрицей и входом в три Attention_i_Layer_2, которые независимы и контролируются гиперпараметром гамма. Затем три вывода суммируются и передаются в полносвязный слой (1024 узла), и, наконец, для классификации используется слой softmax.

(3) Эксперимент: WA и UA используются в качестве оценочных показателей, но статья определяет UA неправильно, и определение UA на самом деле является WA. Определение WA также вызывает сомнения. Экспериментальный эффект UA составляет 80,5%, что фактически является Точностью на уровне сегмента. Не существует общей Точности на уровне предложения, и это также уловка для оценки.

(4) Резюме: инновация статьи в основном выполняет несколько операций внимания над функциями, которые прошли через BLSTM, как модуль MOMA, что обеспечивает значительное улучшение эффекта. Однако улучшение отражается только на точности на уровне сегмента, и ссылка не имеет смысла.

3. AdaptiveDomain-Aware Representation Learning for Speech Emotion Recognition

(1) Обработка данных: четыре категории данных IEMOCAP, исключая одного выступающего. Окно Хемминга STFT извлекает спектральные характеристики, длина окна составляет 20 мс, 40 мс, а сдвиг окна составляет 10 мс.

(2) Модельный метод: введите одну и ту же спектрограмму и разделите ее на две части, одна часть идет в модуль Domain-AwareAttention (объединение времени, объединение каналов и полностью подключенный слой соответственно), а другая часть идет в модуль Emotion для таймпулинг, полностью подключен по каналам (каждый.каналы полностью подключены). Затем модуль домена выводит вектор, превращает вектор в диагональную матрицу и умножает его на выходную матрицу модуля эмоций, так что информация о домене интегрируется во встраивание эмоций. Наконец, многозадачное обучение, соответственно, для поиска потери домена и потери эмоций. Домен здесь не относится к данным в разных полях, а относится к дополнительной информации, такой как пол и возраст.

(3) Эксперимент: WA достигает 73,02%, UA достигает 65,86%, и классификация счастливых эмоций в основном неточна. По сравнению с однозадачной классификацией эмоций WA на 3% выше, а WA на 9% выше.

(4) Резюме: статья представляет собой, по сути, многозадачное обучение для улучшения эффекта классификации эмоций.

4. SpeechEmotion Recognition with Discriminative Feature Learning

(1) Обработка данных: четыре категории данных IEMOCAP, train:validate:test=0,55:0,25:0,2. Все высказывания сегментированы или заполнены до 7,5 с, а функция LLDs извлекается 40-мерная функция log-Melfilterbank, длина окна составляет 25 мс, а сдвиг окна составляет 10 мс.

(2) Метод модели: ввод спектрограммы, шесть блоков CNN свернуты от начала до конца, и функции извлечены; затем моделируется последовательность LSTM, и модуль Attention выбирает вес ввода LSTM и, наконец, полносвязный слой - это классификация softmax.

(3) Эксперимент: UA достигает 62,3%, что ниже базового эффекта (67,4%), но основное внимание в статье уделяется тому, что модель легкая (количество параметров меньше 360K), а расчет быстрый. Еще одним подтверждением является то, что потери softmax с аддитивной маржой и потери фокуса сопоставимы с объединением внимания, которое может достигать около 66%.

(4) Резюме: Новизна статьи не в сетевой структуре, а в эффекте различных потерь.

5. UsingSpeech Enhancement Preprocessing for Speech Emotion Recognitionin Realistic Noisy Conditions

(1) Обработка данных: к данным IEMOCAP искусственно добавляется шум, а данные CHEAVD изначально зашумлены, поэтому нет необходимости добавлять шум.

(2) Модельный метод: эта статья представляет собой модель улучшения речи. Введите шумовой спектр, цель состоит в том, чтобы сгенерировать спектр чистой речи и маску идеального отношения, в середине есть три слоя LSTM, каждый слой будет генерировать некоторые спектральные характеристики и соответствующие маски. Последний слой выводит сгенерированный спектр чистой речи и IRM.

(3) Эксперимент: прежние данные IEMOCAP и данные WSJ0 используются вместе для обучения модели улучшения речи, а затем выполняется прогнозирование настроений на тестовом наборе IEMOCAP (после добавления шума). Последняя модель улучшения речи сначала обучается на 1000 часов корпуса, а затем данные CHEAVD улучшаются, и улучшенная речь используется для распознавания речевых эмоций.

(4) Резюме: после того, как модель улучшения речи обучена на данных, содержащих речевые эмоции, она оказывает значительное влияние на задачу распознавания зашумленных речевых эмоций; в некоторых клипах с низким отношением сигнал/шум, низкой энергией и смехом усиление речи часто искажается, может уменьшаться эффект СЭР.

6. Comparisonof glottal source parameter values in emotional vowels

(1) Обработка данных: голосовые данные, записанные JAIST в Японии, четырех человек (двое мужчин и две женщины), каждый из которых выражает четыре эмоции (сердитый, счастливый, нейтральный, грустный). Произносится как гласная а.

(2) Модельный метод: модель ARX-LF, модель ARX-LF широко используется для представления голосовых волн и фильтра голосового тракта.

(3) Эксперимент: анализ формы волны голосового источника показал, что грустные гласные были более округлыми, а веселые и сердитые гласные — более крутыми. Статистические параметры (параметры) Tp, Te, Ta, Ee, F0 (1/T0) выявили, что основная частота F0 достоверно различалась для разных эмоций.

(4) Резюме: Направление традиционных исследований языковых эмоций заключается в изучении выражения голосовой щели при эмоциях, что является исследовательским и заслуживает одобрения в рамках тенденции всестороннего DL. В дальнейшем на этих данных может быть выполнено моделирование DL, что может быть направлением. Однако трудность заключается в сборе и маркировке гортанных звуков.Текущие экспериментальные данные относительно скудны и записываются вручную, что приводит к высоким затратам и небольшому количеству данных.

7. Обучение распознаванию восприятия эмоций оценщиком с использованием стратегии обучения со-оценщика с программными и жесткими метками.

(1) Обработка данных: данные IEMOCAP и данные NNIME, баллы 1-5 для валентности и активации разделены на три дискретные категории: низкий/средний/высокий. Функции получены из 45-мерных функций openSMILE, включая MFCC, F0 и громкость.

(2) Модельный метод: Для каждого фрагмента аудио эмоциональное восприятие каждого человека различно.Традиционно используется механизм голосования, а режим выбирается в качестве уникальной метки. В этой статье используется другая стратегия для предсказания ярлыка настроения каждого человека. Базовой моделью является модель BLSTM-DNN, часть (a) на рисунке ниже. Метки обучающих данных разделены на три части: одна — жесткая метка (уникальная) каждого человека, а две другие — программные метки и жесткие метки других людей, кроме целевого человека. Три типа помеченных данных отдельно обучаются с помощью модели BLSTM-DNN. Затем заморозьте параметры BLSTM-DNN, объединив выходные данные слоев плотности каждого BLSTM-DNN, наложите три слоя плотности и, наконец, softmax на персональную жесткую метку. Поэтому на этапе предсказания у каждого человека есть соответствующее эмоциональное восприятие, когда будет N людей, будет N моделей.

(3) Твердая метка и программная метка: для фрагмента аудио, если результатом маркировки трех меток является [L, L, M], то жесткой меткой является L, то есть [1, 0, 0]; программная метка [ 0,67, 0,33, 0], что является пропорцией трех категорий.

(4) Эксперимент: это на 1-4 процентных пункта выше, чем при моделировании этикетки одного человека Дизайн мягких и жестких этикеток помогает улучшить эффект SER. Нужно только пометить 50% данных целевого человека, вы можете получить эффект маркировки 100%. Это означает, что новому пользователю нужно пометить только 50% данных IEMOCAP, а модель может добиться эффекта пометки 100% данных.

(5) Резюме: В принципе верно то, что краудсорсинговая маркировка полезна для определения индивидуальных меток, но она не сравнивается с другими моделями, но это не является предметом рассмотрения в этой статье.

8. EmpiricalInterpretation of Speech Emotion Perception with Attention Based Model forSpeech Emotion Recognition

(1) Обработка данных: четыре категории данных IEMOCAP, обучение Session1-4, тестирование Session5. Извлечение признаков 23-мерного лог-Melfilterbank.

(2) Модельный метод: одно высказывание делится на несколько кадров, один вводится в модель BLSTM+Внимание, а другой вводится в модель CNN+Внимание. Затем результаты двух моделей объединяются.

(3) Эксперимент: WA и UA используются в качестве показателей оценки, но статья определяет UA неправильно, и определение UA на самом деле является WA. Определение WA также вызывает сомнения. Экспериментальный эффект UA составляет 80,1%, что фактически является Точностью на уровне сегмента. Не существует общей точности на уровне предложений, и это также уловка для оценки.

(4) Резюме: документ представляет собой слияние двух основных моделей на уровне результатов, и инновации не высоки. Улучшение отражается только на точности на уровне сегмента, и ссылка не имеет смысла.

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~