[Лаборатория звукового спектра] Может ли машина научиться улавливать спектр?

машинное обучение глубокое обучение Нейронные сети
[Лаборатория звукового спектра] Может ли машина научиться улавливать спектр?

Да, но недостаточно хорошо.

В настоящее время методы распознавания нот в основном делятся на две категории:

(1) Алгоритм распознавания партитуры для двух этапов: музыка > основная мелодия > партитура

(2) Алгоритм распознавания партитуры для одного этапа: Музыка > Партитура


МИР и извлечение мелодии

Музыка — это освященная веками форма искусства, включающая множество формальных элементов (средств выражения), таких какМелодия, ритм, гармония, тембр, скорость, темп, лад, формаЖдать.вСамыми основными элементами являются мелодия и ритм. Мелодия связана со слуховым восприятием человека, но не имеет четкого определения в музыковедческих исследованиях.

За последние два десятилетия развитие технологии обработки аудиоинформации и появление Интернета постепенно изменили форму музыки с традиционных кассет и виниловых пластинок на цифровую музыку.


Электронное оборудование с миди-интерфейсом


Каждый из нас может хранить сотни песен на своих компьютерах или мобильных устройствах, а поставщикам облачных музыкальных сервисов часто требуется хранить миллионы или даже десятки миллионов песен. Таким огромным количеством музыки больше нельзя управлять вручную, и нужны новые методы для ее описания, классификации, поиска и взаимодействия с ней.


Логотип облачной музыки Netease


Поэтому на основе содержанияПоиск музыкальной информации (MIR)стала горячей областью исследований и быстро росла за последние два десятилетия.

В области МИР обычно считается, что мелодия принадлежит одному источнику звука в смешанном звуковом сигнале, которым обычно является человеческий голос или доминирующий в нем инструмент. С точки зрения обработки сигналов музыку можно разделить намонофоническая музыкаиполифоническая музыкадва вида. Первое относится к звучанию только одной ноты в любой момент времени; второе относится к одновременному звучанию более двух нот одновременно, причем ноты могут исходить из разных инструментов (таких как пение, гитара или бас) или один инструмент, играющий несколько нот одновременно (например, фортепиано).Объектом обработки извлечения мелодии является полифонический музыкальный сигнал., который автоматически оценивает последовательность, соответствующую монофонической ноте мелодиипреобладающий тонилиПреобладающая основная частота (f0).

Примечание. Высота тона здесь — понятие восприятия, а доминирующая основная частота — физическая величина. Часто используется эквивалентно в литературе по музыкальным вычислениям.

Извлечь последовательность высоты тона мелодии из аудиосигнала



В последние годы извлечение мелодии (или оценка доминирующей основной частоты) с помощью компьютера стало важной темой исследований в области цифровых музыкальных вычислений.Несмотря на то чтолюди(dalao)Мелодию можно легко отличить от смешанных музыкальных сигналов, и даже человек с хорошим музыкальным чутьем и профессиональной подготовкой может определить мелодию как нотную запись (например, JE bar dalao), но для машины это сложно и чрезвычайно сложно выполнить. задача .


Трудности в извлечении мелодии

(1) Полифонический музыкальный сигнал состоит из наложения звуковых волн, воспроизводимых всеми инструментами в записи, и во многих случаях эти инструменты воспроизводятся одновременно.Чрезвычайно сложно разделить частотные спектры от разных источников звука, сильно связанных и наложенных по гармонической структуре, на соответствующие ноты иПост-реверберация, эхо и другая обработка еще больше увеличат перекрытие источников звука.,Размытый музыкальный сигналВремя начала и окончания (обратите внимание на начало/смещение), что затрудняет спектральное разделение.

(2)Даже если получена последовательность основных частот нот, необходимо определить, какие высоты тона принадлежат мелодии, а какие — аккомпанементу., обнаружение затруднено, когда мелодия поет, но есть фоновая гармония (алгоритм удаления вокала, разработанный Adobe, был интегрирован в Audition, но технические детали не могут быть известны из-за коммерческой конфиденциальности).


Исследовательский статус извлечения мелодии

Извлечение мелодии отличается от монофонической оценки высоты тона и полифонической оценки высоты тона. Отличие от однотональной оценки высоты тона состоит в том, что извлечение мелодии имеет дело с многотональными музыкальными сигналами; отличие от многотональной оценки высоты тона состоит в том, что извлечение мелодии определяет только высоту тона мелодии и в то же время отличает ее от высоты тона. других источников звука.

(1) Метод извлечения мелодии, основанный на выделении основного тона.

Общие этапы метода извлечения мелодии на основе основного тона

(2) Метод извлечения мелодии, основанный на разделении источников звука.

(3) Метод извлечения мелодии на основе данных

(4) Метод извлечения мелодии на основе нескольких монофонических оценок основного тона.


октавные ошибки

Обнаруженные кандидаты на шаг мелодии f0 иногда представляют собой целое или дробное число, кратное истинному f0, и алгоритм часто выбирает f0 на одну октаву выше и ниже правильного тона выходной мелодии.


Приложения извлечения мелодии

КромеТранскрипция музыки, существует много прямых и косвенных применений технологии извлечения мелодии.


Прямые применения: этнология, анализ интонаций, анализ мелодических мотивов и паттернов, электроакустическая композиция, анализ призрачных животных (анализ кичику).


Косвенные приложения: запрос по напеванию, идентификация кавер-версии, классификация жанров, нарезка вокала, автоматическое создание аккомпанемента, идентификация исполнителя, заимствование музыки

Примечание. При заимствовании музыки аналогичный короткий мелодический сегмент разделяется между заимствованной и заимствованной песнями. Как правило, музыкальная индустрия считает, что в художественном творчестве разрешены соответствующие заимствования, но более 8 тактов подозреваются в нарушении плагиата.


Принцип прослушивания музыки

Путем сканирования окна (разделения музыки на небольшие секции), а затем извлечения акустических характеристик этого раздела, таких как кепстральные коэффициенты Mel-Frequency (MFCC), получается вектор признаков. Выполните ту же операцию с песней в базе данных и песней, записанной пользователем, чтобы получить вектор признаков, а затем рассчитайте сходство между ними (расстояние между двумя векторами можно рассчитать по формуле косинуса для расчета размера угла или формула расстояния между двумя точками).

Блок-схема прослушивания песен и распознавания песен


Распознавание музыкальных партитур и CNN

Когда мы слышим CNN (Сверточная нейронная сеть),Не CNN, что Трамп сказал Fake News. Обычно на ум приходит компьютерное зрение. Крупные прорывы в классификации изображений, которые сегодня лежат в основе большинства систем компьютерного зрения, связаны с CNN, от беспилотных автомобилей до обнаружения объектов.


Результаты обнаружения и сегментации объектов Mask R-CNN в наборе данных COCO

Так как же музыка связана с изображениями? Все начинается с человека внизу.

Сан Ниан, ты хочешь научиться преобразованию Фурье?


Мы можем разделить музыкальный сигнал на временные рамки, а затем преобразовать сигнал временной области в частотную область для анализа. Обычно используемые частотно-временные преобразования включают в себя кратковременное преобразование Фурье (STFT), преобразование с несколькими разрешениями (блок фильтров с несколькими скоростями), преобразование с постоянной добротностью (преобразование с постоянной добротностью) и преобразование Фурье с несколькими разрешениями (БПФ с несколькими разрешениями, MRFFT).

По сравнению с STFT,Частотно-временные преобразования, такие как постоянное Q-преобразование, позволяют избежать недостатка единообразного частотно-временного разрешения и ближе к слуховой системе человека, с более высоким частотным разрешением на низких частотах для разложения похожих нот и более высоким временным разрешением на высоких частотах для быстрого отслеживания. изменение обертонов.

STFT, линейная шкала частот
Тот же звук, постоянное Q-преобразование


образ из музыки

В типичной CNN изображение сначала считывается как 3D-массив (ширина, высота и 3 цветовых канала), затем эти данные проходят через несколько слоев свертки, максимальный пул и какую-то нелинейность вроде ReLU. В последнем слое для каждого класса изображения (цветок, кошка и т. д.) выводится оценка, представляющая вероятность того, что ввод принадлежит этому классу. Обратное распространение используется для итеративного обновления параметров свертки путем вычисления функции потерь из набора помеченных обучающих данных.

Итак, чем распознавание партитуры в музыке похоже на распознавание изображений? Мы можем использовать приведенное выше преобразование время-частота для создания изображений звука, называемых спектрограммами, которые показывают, как частота изменяется во времени.Если вы думаете, что левый и правый каналы в стереозвуке аналогичны цветовым каналам на фотографии, изображение спектрограммы очень похоже на матрицу трехмерного изображения, которую вы хотите передать в нейронную сеть распознавания изображений.

Но насколько концептуально поиск музыкальной ноты на изображении спектрограммы похож на поиск объекта на фотографии? Музыка проще, а спектрограммы обычно состоят только из двух основных форм:Гармоники (узкие полосы частот, охватывающие короткий диапазон частот и длинный диапазон частот) и ударные или другие широкополосные характеристики (которые охватывают короткий диапазон частот и длинный диапазон частот). В то же время не нужно беспокоиться о вращении или масштабировании на разных расстояниях. Кроме того, нас интересует только один класс объектов: заметки.


Изображение в частотной области, полученное путем выполнения постоянного Q-преобразования музыкального сегмента.


Но некоторые аспекты распознавания заметок сложнее, чем физические изображения.Ноты на определенных основных частотах, таких как B ♭ 3 (233 Гц), состоят из гармоник, кратных этой основной частоте, амплитуда которых уменьшается по мере роста.Поэтому, в отличие от большинства объектов, заметки не ограничиваются одной областью ввода.


B♭ Гармоники (логарифмическая шкала частот)


В отличие от физических образов гармоники разных нот могут мешать друг другу.На фотографии один объект может быть частично скрыт другим, но объект впереди не будет деформироваться. Однако ноты искажены. Соседние гармоники вызывают «скачок» амплитуды, что вы можете видеть на 4-й и 5-й гармониках на диаграмме выше. Алгоритмы распознавания нот должны каким-то образом учитывать эти аспекты музыки.

Клавиши пианино имеют только 88 выходных узлов, а не класс изображения. Поскольку обработка всего изображения спектрограммы сразу невозможна, нам необходимо сначала обнаружить возможные начала нот., затем создайте прямоугольные срезы спектрограммы с центром в эти моменты времени. Отдельную нейронную сеть можно научить идентифицировать эти местоположения, или можно искать локальные максимумы в изменении средней величины.

Прямоугольный фрагмент спектрограммы с центром во времени начала ноты

Обратите внимание, что обнаружение начала предоставляет образцы для оценки CNN, и эти области, ограниченные красными прямоугольниками, являются входными данными для CNN.

Некоторые люди используют Microsoft ResNet (остаточную сеть), а один содержит 3000MIDI-файлНабор данных из 2,5 миллионов обучающих примеров успешно обучил модель.

Блок остаточного обучения


После обучения с TensorFlow на графическом процессоре 980 Ti в течение нескольких дней модель достигла точности 99,200% на тестовом наборе. (Оценка рассчитывается путем подсчета каждого из 88 выходных данных как 0 или 1 и измерения доли всех выходных данных, которые соответствуют истине. Обратите внимание, что, поскольку в наборе данных в среднем 3 примечания для обучающего примера и 85 не примечаний. Использование точность этого измерения составляет 96,6%, даже если банкноты никогда не обнаруживаются.)


Loss, note accuracy, and frame-level accuracy for training batches


Автор и упаковал модель в программное обеспечение, которое может импортировать звуковые файлы сСоздание нотоносцев. Заинтересованные студенты могут загрузить его и попробовать (есть 30-дневный бесплатный пробный период).


Посох сгенерирован Secret Base.mp3

Адрес загрузки программного обеспечения: https://www.lunaverus.com/download

(Необходимо опрокинуть стену, Windows, MAC, Linux доступны)

Сетевой диск Baidu: https://pan.baidu.com/s/1ptjCU5Bdqlpo9YypnSy3ug Пароль: ht4s

(только для Windows и Linux)



Распознавание музыкальных партитур и НЛП


Что такое рекуррентная нейронная сеть?

Рекуррентная нейронная сеть — это искусственная нейронная сеть, в которой узлы соединены в кольцо. Внутреннее состояние такой сети может демонстрировать динамическое поведение во времени. В отличие от нейронных сетей с прямой связью, RNN могут использовать свою внутреннюю память для обработки входных последовательностей с произвольным временем, что упрощает обработку несегментированного распознавания рукописного ввода, распознавания речи и т. д. Он широко используется в исследовательском направлении обработки естественного языка (NLP).


Помните небольшой эксперимент, который мы провели ранее? использоватьRNN (рекуррентная нейронная сеть)для обучения нашей текущей библиотекиБолее 1000Первый номер спектра, посмотрите, какие замечательные вещи вы можете получить - -!

Учебный фрагмент RNN


Мы обнаружили, что, хотя некоторые числа выглядели примерно так, самый важный ритм отсутствовал. Вы знаете, как говорили мои друзья, ритм – это душа музыки! В интернете также есть много статей, в которых используется RNN для обучения текстов и аранжировки музыки, если интересно, можете глянуть. Здесь мы находим фрагмент фортепиано, созданный путем передачи большого количества MIDI-файлов фортепиано в RNN, чтобы друзья могли испытать магию RNN! https://www.youtube.com/watch?v=UoLyeauBsNk (требуется преодоление стены)


стоя на плечах статистикиNLP

С момента своего рождения естественный язык постепенно превратился в контекстно-зависимый способ выражения и передачи информации, поэтому основной задачей компьютеров для обработки естественного языка является создание математической модели контекстно-зависимых характеристик естественного языка. Эта модель - то, что мы часто говоримстатистическая языковая модель,Сегодня это основа всего НЛП., и широко используется в машинном переводе, распознавании речи, распознавании печати или рукописного ввода, исправлении ошибок пиньинь, вводе китайских иероглифов и поиске литературы. Как правило, используется бинарная модель (цепь Маркова), предполагающая, что вероятность появления любого слова связана с предыдущим словом. Поскольку большинство условных вероятностей равны нулю, они сглаживаются с использованием формулы оценки Гуда-Тьюринга, метода отсрочки Каца. Система перевода Google Rosetta и система голосового поиска используют модель кватерниона, которая хранится более чем на 500 серверах Google. В 2005 году Google использовал в тысячи или даже десятки тысяч раз больше данных, чем другие исследовательские институты, для обучения шестиэлементной модели и разработал лучшую на тот момент в мире систему машинного перевода. (количественные изменения в качественные изменения, вызванные большими данными)

Некоторые приложения НЛП

Поскольку Bippu создала музыкальную библиотеку с открытым исходным кодом, мы задались вопросом, можем ли мы построить статистическую музыкальную модель на основе музыкальной библиотеки для исследований в области обработки естественной музыки. На рисунке ниже показаны возможные актуальные перспективы NMP, которые мы получили путем сортировки и аналогии.

Возможные применения NMP

Мы считаем, что основной задачей NMP является создание полной и огромной библиотеки партитур. Таким образом, для обучения статистической музыкальной модели может быть предоставлено достаточное количество обучающих выборок, и можно избежать переобучения модели. Конкретная идея реализации бинарной модели заключается в следующем: музыку можно разделить на N тактов в соответствии с ритмом, а затем бинарную модель можно обучить на единицы тактов. Степень детализации сегментации может быть разной для разных приложений.


Цифровой спектр или миди?

Цифровая нотация — это просто музыкальная нотация без ритма, но я предпочитаю понимать цифровую нотацию как лирику чистой музыки. Мы используем музыкальные инструменты, чтобы исполнять эти тексты под определенный ритм, то есть под музыку.Если использовать аналогию с НЛП, то миди-файл фактически представляет собой полную запись того, что сказал человек (включая интонацию, тон и т. д.). Цифровой спектр — это как написать это предложение на бумаге, потеряв часть информации.

Может ли распознавание партитуры также быть проблемой общения?


Так же как велика вероятность того, что обычные люди могут восстановить тон и интонацию того человека в тот момент из написанного на бумаге предложения (учителя общего языка научат ==), то можем ли мы также научить компьютер восстанавливать ритм речи? оригинальную песню из цифрового спектра или даже создать ритм, который больше подходит для этого цифрового спектра, чем оригинальная песня?

Цифровая запись широко используется в исполнении на губной гармошке. Поскольку нет ритма, стоимость воспроизведения нотной записи ниже, чем у упрощенной нотной записи и нотоносца. Из-за этого легче генерировать большие наборы данных, что является ключом к глубокому обучению. В то же время статистические музыкальные модели также могут помочь в дальнейшем повышении точности извлечения мелодии и распознавания партитуры CNN.


Может быть, однажды мы сможем услышать самую красивую в мире мелодию, рассчитанную компьютером?

Может быть, однажды мы переосмыслим, что такое музыка?

Я считаю, что все это не за горами с бурным развитием машинного обучения.



использованная литература:

  • Ли Вэй, Фэн Сянъи, Ву Имин и др. Обзор технологии извлечения темы поп-музыки [J], Компьютерные науки, 2017, 44(5):1-5.

  • «Основы искусственного интеллекта (выпуск для средней школы)»

  • https://www.lunaverus.com/cnn


NMP