67 лет назад Тьюринг, математический гений, осужденный за гомосексуальность, откусил зараженное цианидом яблоко и умер. Его судьба похожа на искусственный интеллект, о котором он упоминал в статье, хотя он и непонятен, но вне времени.
Тьюринг — трагический гений, не идущий в ногу со временем, и такой же трагический гений есть и у Ли Юнди. Хотя он обладает музыкальным талантом Аполлона, он был поражен стрелой похоти Эроса, как старый олень с жизненной силой, ворвался в арендуемый дом Дафны в общине и в отчаянии сочинил песню, которая ему не принадлежала. Гимн Божий, пусть мелодия обвивает изголовье кровати, парит над облаками и исчезает между черными железными воротами отделения полиции района Чаоян. В конце концов, он завершил движение совершенно в другом стиле, но это было бесконечно мило.
Тьюринг и Ли Юнди, «Искусственный интеллект и композиция». Два гения, рожденные не в ту эпоху, новое и интересное направление — «Композиция ИИ». Следующие мелодии созданы ИИ.
детские игры
В детстве я увлекался своего рода числовой игрой, ища закономерности в куче цифр.
Например: 1, 1, 2, 3, 5, 8, 13, __? Ответ 21. Все числа удовлетворяют правилу: «Третье число равно сумме первых двух чисел».
А «композиция ИИ» — это еще одна игра по поиску закономерностей, нахождению закономерностей в отношениях ряда нот и предсказанию следующей наиболее подходящей ноты.
Окончательная мелодия, сгенерированная ИИ, всесторонне определяется данными, токензи данных, архитектурой модели, обучением и выборкой.
-
Данные определяют стиль: люди, слышавшие только древнегреческую музыку номов, вряд ли смогут написать дионисийский гимн
-
Data Tokenzie: если заметки представляют собой кубики Lego, то Data Tokenzie является основным строительным блоком для проектирования этих кубиков Lego.
-
Отличная модельная архитектура определяет способность ИИ к обучению: талантливые музыканты могут поднимать тяжести и писать умопомрачительную музыку, а обычным людям вроде меня нужно в сто раз больше видения (данных) и усилий (вычислительных мощностей).
-
Обучение: процесс, посредством которого модель учится расти.
-
Выборка: результат прогнозирования ИИ представляет собой набор вероятностей (чисел), которые могут напрямую выбирать заметку с наибольшей вероятностью или использовать общее распределение вероятностей в качестве основы для выбора.
## MIDI и ****музыкальные данные
Музыка — это искусство звука, протекающего сквозь время и формирующего в процессе структуру.
С точки зрения физики сущностью звука является процесс передачи ряда вибрационных явлений, порождаемых частицей звукопередающей среды. Прекрасная музыка — это суммарный эффект серии вибраций частиц.
Люди могут легко почувствовать эффект вибрации частиц через барабанную перепонку и «музыкальные клетки», но у ИИ нет человеческих ушей, мир ИИ виртуален, а мельчайшие «частицы», составляющие этот мир, — числа.
Поэтому нужен мост, воздвигнутый на вибрации и цифре, соединяющий реальное и виртуальное. И тот мост, который был построен еще в 1983 году, это МИДИ.
Полное название MIDI — «Цифровой интерфейс музыкальных инструментов», то есть «Цифровой интерфейс музыкальных инструментов».
MIDI тщательно управляет музыкой, то есть он может точно и независимо управлять четырьмя музыкальными элементами: высотой тона, длиной, интенсивностью и тембром. Он также имеет чрезвычайно высокую эффективность хранения, всего около 80 МБ дискового пространства для 200 часов музыки. То, что хранит MIDI, на самом деле является просто набором инструкций, которые сообщают клавишным, басам, ударным и т. д., как звучать в определенное время. Проще говоря, MIDI хранит соответствие между временными точками и нотами. Это совпадает с вышеупомянутой игрой в угадывание ИИ.
Поскольку MIDI очень удобен, вы можете получить достаточный источник данных, преобразовав огромное количество музыки в Интернете в файлы MIDI. Это правда, но процесс преобразования MP3, WAV и т. д. аудио из сети в MIDI также является серьезной проблемой. Транскрипция, синхронизация, мелодия, извлечение аккордов и т. д. также необходимы для перехода от аудио к MIDI.
В последние годы технология транскрибирования быстро развивалась, обеспечивая большое количество высококачественного MIDI-материала для цифровой музыки.В 2018 г. транскрипция может извлекать только относительно отдельные звуки из чистых аудиосигналов. И только в прошлом месяце вышла последняя работа команды Google Magenta [MT3: MULTI-TASK MULTITRACK].[1], который транскрибирует звук из нескольких слоев сложных ансамблей. (*** Технология транскрипции не является предметом этой статьи, заинтересованные друзья рекомендуют прочитать статью в конце.[1]. ***)
*** Источник данных, используемый в этой статье, взят изaiLabs.twкомандаPop1K7источник данных. ***
## MIDI Tokenzie
Если музыкальные ноты — это кубики Lego, то MIDI Tokenzie — самый основной строительный блок для проектирования этих кубиков Lego.
В знании теории музыки элементы песни неразделимы: такт, ритм, высота звука, продолжительность и т. д. MIDI Tokenzie - это самый простой «деревянный блок», который определяет эти элементы, и каждая песня представляет собой упорядоченную комбинацию «маленьких деревянных блоков».
Своего рода РЕМИ.[2]MIDI Tokenzie способ. Это разбить и разделить MIDI в соответствии со следующими широтами:
-
Такт/Позиция: Разделите длину такта на 32 равные части, каждая из которых представляет позицию в такте. Каждый «маленький блок» представлен [1~32].
-
Темп: от медленного к быстрому, разделенный в среднем на 32 скорости. Диапазон номеров [33~64].
-
Высота тона: Каждая из 88 клавиш фортепиано представляет собой независимую высоту тона. Диапазон "маленький деревянный брусок" [65~152].
-
Продолжительность: от короткой до длинной, в среднем делится на 64 длительности звука. Диапазон "маленький деревянный брусок" [153~216].
-
Скорость: от легкого до тяжелого, в среднем делится на 64 звуковых уровня. Диапазон "Маленький деревянный брусок" [217~280].
-
Отдых (Rest): От легкого до тяжелого, равномерно разделенного на 10 тонов. Диапазон "Маленький деревянный брусок" [281~291].
Таким образом, мелодия может быть представлена последовательностью чисел.
MIDI Tokenzie отображает «хаотические» вибрации реальности в непрерывные числа, что является «музыкой», которую может понять только ИИ.
Модель "AI Composer"
Модель ИИ представляет собой коробку с нейронами. В отличие от нейронов человека, нейроны ИИ представляют собой компьютерную симуляцию. Нейроны человека передают стимул через электрические токи между синапсами, в то время как нейроны ИИ общаются по простой формуле.Проходные номера.
Мелодии - это MIDI Tokenize для получения номеров. После того, как его бросили в ящик, его принимают нейроны, и после упорядоченной передачи сотен миллионов нейронов наконец-то выводится новое число. Эти новые числа могут быть повторно преобразованы в файлы MIDI и превращены в музыку, сочиненную искусственным интеллектом.
Подобно тому, как думают люди, ИИ ищет отношения между числами в нескольких измерениях. Например, Ли Юнди и У Муфань, взяв за эталонное измерение сферу фортепианного исполнительства, можно описать как два конца моря, но, начиная с Железных ворот в районе Чаоян, они близки друг к другу.
При расчете отношения между ними учитываются все измерения. А ИИ, как суровый охотник, опираясь на мощную наблюдательность своего стоглазого гиганта, может уловить тонкую взаимосвязь между нотами и цифрами в тысячах измерений.
Эта способность неотделима от важного механизма, а именно знаменитой статьи от Google Attention Is All You Need.[3].
Ядром статьи является механизм внимания, который происходит от имитации биологического поведения, то есть алгоритм имитирует внутренний процесс поведения биологического наблюдения и повышает точность локального наблюдения на основе внешних стимулов и внутреннего опыта. Точно так же, как когда люди фокусируются на фигуративном объекте, нерелевантные изображения автоматически размываются.
Теперь механизм Внимание проник в алгоритмы ИИ в различных областях, даже непобедимый ИИ в стратегиях в реальном времени, поддерживающие их алгоритмы неотделимы от механизма внимания. Например, AlphaStar из «StarCraft 2», OpenAI Five из «Dota2» и так далее.
Одним из основных элементов модели [композиции ИИ] является механизм внимания.
Предположим, ИИ фиксирует отношения между числами в 256 измерениях. Затем каждое число будет расширено в 256 измерениях.
Например, число 100, соответствующее «шагу 36», число 100 будет расширено до 256 чисел с плавающей запятой с чрезвычайно высокой точностью. Каждый поплавок представляет значение числа 100 в этом измерении.
Точно так же, если вы поместите в поле набор «интенсивность высоты тона длины тона темпа такта», вы получите 5 наборов из 256 чисел с плавающей запятой.
Ключевым шагом механизма «Внимание» является выполнение операции скалярного произведения линейной алгебры каждой группы чисел и других групп чисел по очереди, что эквивалентно учету каждого из 256 измерений.
Например, чтобы проанализировать взаимосвязь между «Bar 1» и «Pitch 36», вы можете сделать скалярное произведение расширенных чисел с плавающей запятой двух.
Полученный результат скалярного произведения в определенной степени содержит взаимосвязь между ними. Вышеизложенное является базовым пониманием того, как ИИ фиксирует отдельные отношения, а внимание представляет собой комбинацию ряда таких методов захвата отношений. Заинтересованные друзья могут обратиться к соответствующей информации.
[AI Composer] Второе ядро модели, Relative Attention (механизм внимания относительного положения)
Он дополнительно настраивается поверх механизма Attention. Хотя механизм Внимание может найти взаимосвязь между каждой нотой, для музыки также следует учитывать периодичность и регулярность мелодии. Поэтому взаимное расположение банкнот также учитывается для влияния весов. Это тоже газета [Музыка-Трансформер][4]ключевой шаг, упомянутый в . Внимание, учитывающее относительное положение каждой ноты, называется относительным вниманием.
Например, начните с мелодии и продолжите композицию. С Attention (без Relative) сгенерированная мелодия будет легко "размазываться" через минуту.
С Relative Attention он может воспроизводить почти неограниченную длину и довольно изменчивую мелодию.
36-минутная мелодия -- AI-Music-Long-03
*Relative AttentionДля конкретной реализации, пожалуйста, обратитесь к ссылке на исходный код в конце статьи. ***
Третье ядро модели [композиции ИИ], Compound Word Transformer.
Compound Word Transformer[5]Эта статья была опубликована в 2021.1 Модель, предложенная в этой статье, значительно повысила эффективность обучения, которая может достигать 5-10 раз по сравнению с [Music Transformer] в 2018 году, а сгенерированная мелодия также имеет лучшую производительность. (Музыка в начале статьи была создана с использованием модели на основе Compound Word Transformer.)
Превосходная производительность Compound Word Transformer обусловлена важным улучшением. Метод последовательного ввода REMI MIDI Tokenize станет методом параллельного ввода Compound Word MIDI Tokenize.
Этот метод параллельного ввода имеет несколько существенных преимуществ:
-
Длина последовательности после MIDI Tokenize значительно сжимается, что будет более удобно для обучения и создания более длинной мелодии.
-
Модель поддерживает параметры тренировки, которые придают различный вес шагу, длине, интенсивности, отдыху и т. д. Например, расширение основного тона составляет 1024 размера, а расширение паузы — 256 размеров.
-
Во время обучения различные музыкальные элементы можно независимо контролировать для получения тренировочного эффекта.
-
После того, как результаты получены, можно использовать различные стратегии выборки для высоты тона, длины, интенсивности, отдыха и т. д. соответственно. Например, пусть высота тона и длина меняются больше, а интенсивность звука меньше.
Итак, почему Compound Word Transformer может поддерживать параллельный ввод, сделайте краткое объяснение: Compound Word Transformer использует серию методов линейного преобразования для преобразования параллельной структуры результата Tokenzie в последовательную структуру, а затем бросает ее на внимание, чтобы зафиксировать взаимосвязь. и получить После результата последовательной структуры метод линейного преобразования используется для преобразования результата в параллельную структуру в качестве вывода.
Compound Word Transformer — это модель, которую я наконец использовал. Поскольку документ относительно новый и ресурсов не так много, я споткнулся по пути. Код (версия Tensorflow), который я исследовал и реализовал, был открыт на Github, нажмите, чтобы просмотреть исходный текст.
тренироваться
Аргонавты должны продолжать побеждать воинов с зубами дракона, рожденных в земле Беотии, чтобы наконец захватить Золотое руно Хризомароса.
Процесс обучения модели ИИ похож на ролевую игру, в которой нужно постоянно побеждать Воина Зуба Дракона, Каждое очко опыта — это оптимизация весов связей между миллиардами нейронов.
Обучите модель «композиции ИИ», используйте красивую мелодию в качестве эталона вывода, а ИИ обратно подстроит собственные параметры — это обратное распространение в области глубокого обучения.
Между музыкой, выдаваемой ИИ, и музыкой в обучающих данных всегда есть «разрыв», который мы называем ПОТЕРЯМИ. Одна из целей обучения - уменьшить ПОТЕРЮ, как уничтожить Воина Зуба Дракона.
ПОТЕРИ определяются миллиардами переменных, так как же ИИ знает, в каком направлении ПОТЕРИ становятся меньше?
На самом деле также очень просто установить функциональную связь между ПОТЕРЯМИ и миллиардами переменных.
Пусть LOSS возьмет частную производную каждой переменной, чтобы вы знали направление влияния каждого параметра на LOSS, а затем немного переместите все параметры в направлении уменьшения LOSS, чтобы получить новые параметры. Этот процесс называется ШАГОМ в глубоком обучении, который представляет собой процесс самообучения модели с обратным распространением.
После начала обучения с увеличением STEP точность модели для обучающей выборки постепенно увеличивается, а точность проверочной выборки сначала высокая, а затем низкая. Это связано с тем, что модель медленно входит в состояние переобучения.
Следовательно, необходимо выбрать точку STEP с лучшим модельным эффектом. В результате экспериментов было обнаружено, что лучшая модель для создания музыки часто возникает после наилучшей точки набора проверки. Например, лучшая модель, которую я придумал, это STEP == 28500, мелодия, сгенерированная предыдущей моделью (STEP10000), будет слишком легкой или «не в ладу», а мелодия, сгенерированная более поздней моделью (STEP10000), будет Появляется "отсутствие изменений".
Например, для данного открытия три мелодии
Конечно, точность, отмеченная конечными рациональными числами, может только отражать соответствие модели обучающему набору, но не может отражать привлекательность музыкального восприятия, которая является субъективным опытом, который варьируется от человека к человеку.
Вышеизложенное является личным опытом тренировок и предназначено только для справки. Детали обучения подробно описаны в исходном коде (щелкните, чтобы просмотреть исходный текст).
## Sampling (выборка)
Число, которое наконец дает ИИ, — это распределение вероятностей. Выборка — это процесс отбора выборок из определенного распределения вероятностей. Для «композиции ИИ» алгоритм выборки является правилом выбора заметок из вероятностного распределения заметок. Естественная идея — использовать жадный поиск напрямую (выбирать только тот, который имеет наибольшую вероятность).
В реальных испытаниях было обнаружено, что жадный поиск приводит к отсутствию изменений в музыке и даже к своего рода монотонности, которая никогда не возвращается. Это феномен «застревания в петлях».
Для решения проблемы «застревания в петлях» хорошим выбором является температурная выборка. Алгоритм состоит в том, чтобы сделать softmax распределения вероятностей (то есть, все вероятности сжаты в, а сумма равна 1) для получения распределения вероятностей. повторное использованиеРазделите на температуру T (пользовательский параметр), чтобы получить, наконец-тоСделайте значение вероятности.
Простое понимание состоит в том, чтобы представить распределение вероятностей результата в виде волнистого айсберга.По мере повышения температуры айсберг будет таять, и вероятности будут ближе.При экстремально высокой температуре не будет разницы между всеми вероятностями. Следовательно, чем выше температура, тем более плавное распределение вероятностей, а чем ниже температура, тем, соответственно, более концентрированная вероятность.При температуре 1 распределение вероятностей остается прежним.
С регулировкой температуры есть определенный простор для регулировки вариативности мелодии. Но все равно не эффективно, потому что серия длинных хвостов с крайне малой вероятностью тоже может быть выбрана в группу, что повлияет на конечный эффект.
Дальнейшее обновление, алгоритм, который сочетает выборку TOP-P и выборку температуры, который я, наконец, принял.
Основная идея алгоритма TOP-P заключается в том, чтобы в конце отбросить результаты с малой вероятностью. Как и на выборах в США, не все граждане США являются кандидатами. ТОР-П может определить степень игнорирования вероятности окончания, задав значение Р. Чем больше значение P, тем меньше степень игнорирования.При P равном 1 все вероятности будут сохранены, что ничем не отличается от Temperature Sampling. В реальной работе я буду устанавливать разные T (температура) и P для разных музыкальных элементов.Например, установите T и P Duration (длина звука) выше, чтобы мелодия могла получить больше изменений, И установите T и P бар (такт) ниже, чтобы мелодия оставалась стабильной.
Следующие две песни являются продолжением одного и того же начала и сравнивают разные мелодии "T-pitch".
Высота тона первой песни (T-pitch = 0,01) будет поддерживать хорошую последовательность от начала до конца. А мелодия второго (T-pitch=1) имеет более гибкое и изменчивое ощущение.
-
-
-
- -
-
-
Красоту нельзя измерить, но ее можно проследить. Композиция трехлапого кота ИИ, напоминающая кунг-фу, является доказательством.
Древние говорили, что «музыка не может быть фальшивой», то есть использовать музыку как выражение крайней чувствительности. Даже у музыкантов, которые много лгут, их произведения должны быть пронизаны настоящими чувствами. «Есть много вещей, которых вы не знаете», действительно, в мире музыки он сказал правду.
А композиция ИИ — это вызов от рационального мира к перцептивному миру и попытка объединить мир с монизмом. Если ИИ сможет смоделировать настоящие чувства животных, то однажды мы сможем создать виртуальный мир, оптимизированный под реальность, что является формой бессмертия. Мы избавимся от бремени физического тела, и запишем все мысли и мысли тех гор и цунами, те обычные воспоминания, которые накапливались ежеминутно и ежесекундно, аккуратно на карточку, которую можно вставить в механическое тело. Это так же просто, как вставить резервную сим-карту в новый телефон.
Однако мир не обязательно един, а эмоции и сознание не обязательно определяются материей.Правильный ответ на данный момент никто не знает.В этом величие физики, а в фундаментальной физике не было крупного прорыва за сто лет .
Когда дивиденды экономического развития истощат тело инволюции, неряшливые развлечения будут ждать возможности занять праздную жизнь людей. Насколько личные усилия стоят развития времени — это вопрос, который необходимо рассмотреть. Но нет никаких сомнений в том, что этой эпохе все еще нужно яблоко, которое попадет в следующего Ньютона, мозг, который применяет общую теорию относительности к моделированию вселенной, просто думая, и герой Ergo, который когда-то помог Афине. Нам нужно больше удачи.
Хотя интеграция ИИ и искусства больше зависит от прорывов в фундаментальной науке, красота действительно прослеживается, то есть произведения искусства, созданные ИИ сегодня, также красочны. Это отличное поле для слияния технологий и искусства, а также исследовательское путешествие для объединения цифрового и эмоционального.
Платан за окном постепенно обнажил свои хорошо организованные ветки, а маленькая дикая кошка перед окном открыла для себя закономерность раскладывания консервов.Эти восемь месяцев учебы обогатили меня и породили прекрасное чувство, которое и знакомое, и далекое.Я думаю, что прошло много времени, прежде чем я начал писать эту статью, и я не нашел памяти о знании.Оказалось, что это чувство исходило от игр, в которые я играл, когда был ребенком без Это было самое простое и незамысловатое счастье, которое можно получить, угадывая числа.
-
[0] Исходный код процесса реализации:netpi/compound-word-transformer-tensorflow
-
[1]MT3: АР Вест V.org/ABS/2111.03…
-
[2]REMI: АР Вест V.org/ABS/2002.00…
-
[3]Attention: АР Вест V.org/ABS/1706.03…
-
[4]Music-Transfomer: АР Вест V.org/ABS/1809.04…
-
[5]CP-Word-Transfomer: АР Вест V.org/ABS/1809.04…