- Оригинальный адрес:Representing music with Word2vec?
- Оригинальный автор:Dorien Herremans
- Перевод с:Программа перевода самородков
- Постоянная ссылка на эту статью:GitHub.com/rare earth/gold-no…
- Переводчик:Minghao23
- Корректор:lsvih
Алгоритмы машинного обучения привели к большим изменениям в поле зрения и обработке естественного языка. А как же музыка? Область музыкального информационного поиска (МИР) в последние годы быстро развивается. Мы увидим, как некоторые приемы НЛП переносятся в музыку. существуетЧуан, Агрес и ХерремансВ статье, опубликованной в 2018 году, исследуется способ представления полифонической музыки с использованием популярной техники НЛП word2vec. Давайте рассмотрим, как это делается...
Word2vec
Модели встраивания слов позволяют нам осмысленно представлять слова, чтобы модели машинного обучения могли их легче обрабатывать. Эти модели встраивания слов позволяют нам представлять слова как векторы, содержащие семантику. Word2vec — это популярная модель векторного встраивания слов, разработанная Миколовым и др. в 2013 году, которая может очень эффективно создавать семантические векторные пространства.
Суть Word2vec — простая однослойная нейронная сеть, которую можно построить двумя способами: 1) с использованием модели непрерывного набора слов (CBOW) или 2) с использованием структуры skip-gram. Обе структуры очень эффективны и могут быть обучены относительно быстро. В этом исследовании мы использовали модель скип-грамм, так как в работе Миколова и др. в 2013 году упоминалось, что этот метод более эффективен для небольших наборов данных. Структура Skip-gram использует текущее слово w_t в качестве входных данных (входной слой) и пытается предсказать слова, которые находятся рядом с предыдущим и последующими словами в окне (выходной слой):
Изображение изChuan et al (2018), Иллюстрация слова t и его окна контекста.
Из-за некоторого распространения в Интернетерисунок, существует некоторая путаница в отношении того, как выглядит структура skip-gram. Выходной слой сети не содержит нескольких слов, а состоит из одного слова в контекстном окне. Так как же он может представлять все контекстное окно? При обучении сети мы фактически используем пары выборок, которые состоят из входного слова и случайного слова в контекстном окне.
Традиционная цель обучения для этого типа сети состоит из функции softmax, которая вычисляет ?(?_{?+?}|?_?), что очень дорого для вычисления градиентов. К счастью, такие методы, как шумо-контрастная оценка (Gutmann and Hyvärine 2012) и отрицательная выборка (Mikolov et al. 2013), позволяют решить эту проблему. В основном мы определяем новую цель с отрицательной выборкой: максимизировать вероятность истинных слов и минимизировать вероятность шумовых выборок. Простая бинарная логистическая регрессия может быть использована для классификации реальных слов и образцов шума.
Когда модель word2vec обучается, веса скрытых слоев в основном представляют изученные многомерные вложения.
Использовать музыку как слово?
Музыка и язык неразрывно связаны. Оба они состоят из упорядоченной последовательности событий, подчиняющихся некоторым грамматическим правилам. Что еще более важно, все они создают ожидания. Представьте, если бы я сказал: «Я иду в пиццерию, чтобы купить…». Это предложение порождает явное ожидание... пиццы. Теперь представьте, что я напеваю вам мелодию с днем рождения, но останавливаюсь перед последней нотой... так что, как и предложение, мелодия порождает предвкушение, и это предвкушение можно измерить с помощью мозговых волн, таких как корреляция событий в мозге. Потенциал. N400 (Бессон и Шен, 2002 г.).
Принимая во внимание сленг и сходство слов, давайте посмотрим, можно ли также использовать популярные языковые модели для осмысленного представления музыки. Чтобы преобразовать миди-файл в «язык», мы определяем «срезы» (эквивалент слов в языке) в музыке. Каждая дорожка в нашей базе данных разделена на равные по длине неперекрывающиеся фрагменты длиной в один такт. Длительность удара можно определить поMIDI toolboxполучается и может быть разным в каждой дорожке. Для каждого фрагмента мы записываем список всех названий высоты тона, то есть высоты тона без информации об октаве.
На рисунке ниже показан пример определения срезов из первого подраздела мазурки Шопена соч.67 №4. Длина доли здесь составляет четвертную ноту.
Изображение изC изменено на ETA (2018) --- Создание слов из музыкальных фрагментов
Word2vec Learning Tone — гипотеза семантического распределения музыки
В языковых моделях предположение о семантическом распределении является одной из теоретических основ встраивания слов. Утверждается, что «слова, встречающиеся в одном и том же контексте, обычно имеют одинаковое значение». В переводе на векторное пространство это означает, что слова будут геометрически близки друг к другу. Давайте посмотрим, изучит ли модель word2vec подобное представление для музыки.
набор данных
используется Chuan et al.Набор MIDI-данныхСодержит 8 различных музыкальных жанров (от классики до металла). Из 130 000 музыкальных композиций мы выбрали только 23 178 по жанровым признакам. Эти треки содержат 4076 уникальных фрагментов.
Гиперпараметры
Модель обучается с использованием только 500 наиболее часто встречающихся фрагментов (то есть слов) и поддельного слова вместо всех остальных случаев. Этот процесс повышает точность модели, когда включенные слова содержат больше информации (количество вхождений). Другие гиперпараметры включают скорость обучения (установлено на 0,1), размер окна пропуска (установлено на 4), количество шагов обучения (установлено на 1 000 000) и размер встраивания (установлено на 256).
аккорды
Чтобы оценить, улавливается ли моделью семантика музыкальных фрагментов, давайте посмотрим на аккорды.
В тезаурусе слайсов распознаются все слайсы, включая триады. Эти фрагменты затем оцениваются римскими цифрами (как мы часто делаем в теории музыки). Например, в тональности C аккорд C — это I, а аккорд G — это V. Позже мы будем использовать косинусное расстояние, чтобы вычислить, насколько далеко в вложении находятся хорды разных масштабов.
существуетnВ размерном пространстве косинусное расстояние Ds(A, B) двух ненулевых векторов A и B вычисляется следующим образом:
D?(A,B)=1-cos(?)=1-D?(A,B)
где ? — угол между A и B, а Ds — косинусное подобие:
С теоретической точки зрения «тональное расстояние» между аккордами I и V должно быть меньше, чем между аккордами I и III. На приведенной ниже диаграмме показано расстояние между трезвучием до мажор и другими аккордами.
Изображение изChuan et al (2018) --- Косинусное расстояние между трезвучиями и тоническим аккордом = до мажорное трезвучие.
Расстояние от триады I до V, IV и vi относительно невелико! Это согласуется с тем, что они считают «близким шагом» в теории музыки, а также указывает на то, что модель word2vec действительно изучает значимые отношения между срезами.
В пространстве word2vec косинусное расстояние между аккордами, кажется, отражает функциональную роль аккордов в теории музыки!
мелодия
Изучив 24 прелюдии Коллекции хорошо темперированного фортепиано Баха (WTC), которая включает в себя все 24 тональности (мажорную и минорную), мы можем выяснить, захватывает ли новое пространство встраивания ключевую информацию.
Чтобы увеличить набор данных, каждая часть была преобразована во все остальные мажорные или минорные тональности (на основе оригинала), так что было 12 версий каждой части. Каждый ключевой срез отображается в предварительно обученном векторном пространстве и кластеризуется с использованием k-средних, чтобы мы могли получить несколько центральных точек и использовать их в качестве ключей в новом наборе данных. Транспонируя эти мелодии, мы можем гарантировать, что на косинусное расстояние между центральными точками влияет только один элемент: тональность.
На рисунке ниже показаны результаты косинусного расстояния между частями центральной точки в разных тональностях. Как и ожидалось, тона квинт тонально близки и представлены более темными областями рядом с диагональю. Тональные далекие клавиши (такие как F и F#) окрашены в оранжевый цвет, что подтверждает нашу гипотезу о том, что пространство word2vec отражает отношение тонального расстояния между клавишами!
Изображение изChuan et al (2018)--- similarity matrix based on cosine distance between pairs of preludes in different keys.
аналогия
это изображениеДемонстрирует заметную особенность word2vec, которая может находить такие преобразования, как «король-> королева» и «мужчина-> женщина» в векторных пространствах (Миколов и др., 2013). Это означает, что значение может быть передано посредством векторных преобразований. Так возможно ли это и для музыки?
Сначала мы выделяем несколько аккордов из полифонического среза и наблюдаем за парой векторов аккордов, от до мажор до соль мажор (I-V). Можно обнаружить, что углы между различными парами векторов ВАХ очень похожи (как показано на рисунке справа), и их можно даже рассматривать как многомерный круг квинт. Это еще раз доказывает, что концепция аналогии может существовать и в музыкальном пространстве word2vec, хотя необходимы дополнительные исследования, чтобы найти более четкие примеры.
Изображение изChuan et al (2018) --- угол между векторами пар хорд.
Другие приложения - Генерация музыки?
Чуан и др. 2018 кратко изучили, как эту модель можно использовать для замены музыкальных фрагментов для создания новой музыки. Они говорят, что это всего лишь предварительный эксперимент, но систему можно использовать в качестве представления для более сложных систем, таких как LSTM. Подробнее об этом можно узнать в статье, но график ниже даст вам первоначальное представление о результатах.
Изображение изChuan et al (2018) --- Замена срезов геометрически близкими срезами.
в заключении
Чуан, Агрес и Херреманс в 2018 году создали модель word2vec, которая фиксирует тональные свойства полифонической музыки, не вводя в модель фактические ноты. В статье приведены некоторые убедительные доказательства того, что информация об аккордах и тональностях может быть найдена в новом встраивании, поэтому ответьте на вопрос в заголовке следующим образом: Да, мы можем использовать word2vec для представления полифонической музыки! Теперь включение этого представления в другие модели, способные фиксировать временную информацию о музыке, открывает путь.
Ссылаться на
- Бессон М., Шон Д. (2001) Сравнение языка и музыки, Ann NY Acad Sci 930 (1): 232–258.
- Chuan, C. H., Agres, K., & Herremans, D. (2018). From context to concept: exploring semantic relationships in music with word2vec. Нейронные вычисления и приложения --- Специальный выпуск о глубоком обучении для музыки и аудио, 1--14. Arxiv preprint.
- Gutmann MU, Hyvärinen A (2012) Шумоконтрастная оценка ненормализованных статистических моделей с приложениями к статистике естественных изображений, J Mach Learn Res 13 (февраль): 307--361
- Harris ZS (1954) Distributional structure. Word 10(2--3):146--162.
- Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
- Mikolov T, Sutskever I, Chen K, Corrado GS, Dean J (2013b) Distributed representations of words and phrases and their compositionality. In: Proceedings of advances in neural information processing systems (NIPS), pp 3111--3119
- Mikolov T, Yih Wt, Zweig G (2013c) Linguistic regularities in continuous space word representations. In: Proceedings of the 2013 conference of the North American chapter of the association for computational linguistics: human language technologies, pp 746--751
Если вы обнаружите ошибки в переводе или в других областях, требующих доработки, добро пожаловать наПрограмма перевода самородковВы также можете получить соответствующие бонусные баллы за доработку перевода и PR. начало статьиПостоянная ссылка на эту статьюЭто ссылка MarkDown этой статьи на GitHub.
Программа перевода самородковэто сообщество, которое переводит высококачественные технические статьи из Интернета сНаггетсДелитесь статьями на английском языке на . Охват контентаAndroid,iOS,внешний интерфейс,задняя часть,блокчейн,продукт,дизайн,искусственный интеллектЕсли вы хотите видеть более качественные переводы, пожалуйста, продолжайте обращать вниманиеПрограмма перевода самородков,официальный Вейбо,Знай колонку.