Далее я изучу систему музыкальных рекомендаций, которой требуются данные для демонстрации алгоритма и инженерного кода, а затем обобщу набор музыкальных данных с открытым исходным кодом в Интернете.

Million Song Dataset

Когда дело доходит до набора музыкальных данных, первым должен быть MSD, который содержит информацию об 1 миллионе песен общим размером 280 ГБ. Поскольку объем данных действительно велик, он использует формат сжатия файлов h5 и предоставляет некоторыеcodeдля чтения таких файлов.

Каждая песня соответствует файлу, а поля включают все аспекты песни, такие какartist_mbid,artist_name,title,tempoи так далее, все поляперечислено здесь. Путь странный, а в вопросах и ответах поясняется, что невозможно поместить все файлы в одну директорию.Каталог организован так: Расположение песни — это иерархический каталог, образованный третьей, четвертой и пятой цифрами идентификаторов треков The Echo Nest, таких какMillionSong/data/A/D/H/TRADHRX12903CD3866.h5.

Кроме того, на основе MSD сообщество также предоставило множество дополнительных наборов данных для облегчения исследований MSD в различных аспектах. Их легко найти на главной странице.

The SecondHandSongs Dataset: информация о том, что на некоторые песни были сделаны каверы, иSecond HandЗначение производительности сайта для каждой обложки.
The musiXmatch Dataset: Предоставляет тексты песен для 77% песен в MSD в виде наборов слов.
The Last.fm Dataset: увидеть ниже
The Echo Nest Taste Profile Subset: Echo Nest предоставляет набор данных о количестве воспроизведений песен, которые могут быть связаны с MSD, включая 1 миллион пользователей и 48 миллионов записей о воспроизведении.
thisismyjam-to-MSD mapping: Музыкальная социальная сетьthisisjamпользовательские данные и связь с MSD.
tagtraum genre annotations: обозначение музыкальных жанров.
Top MAGD dataset: обозначение музыкальных жанров.

Набор данных Lastfm

last.fm— это британское интернет-радио и музыкальное сообщество, которое предоставляет разработчикамБогатый API, поэтому многие учреждения или отдельные лица создают наборы данных, вызывая эти API.

1K users (user full listening history)

Представлено в разделе 2.1 «Практики системы рекомендаций».этот набор данных, как представитель набора данных неявной обратной связи с контекстной информацией. Он состоит из двух файлов: записи Duolingo и информации о пользователе. Первый — это все записи воспроизведения музыки и время воспроизведения почти 1000 слушателей до 5 мая 2009 года, а также название музыки, имя исполнителя, идентификатор musicbrain и другая информация. Последний записывает пол, возраст, страну и время регистрации всех слушателей. Среди них статистика, зафиксированная при прослушивании песен, следующая:

Total Lines: 19,150,868
Unique Users: 992
Artists with MBID: 107,528
Artists without MBDID: 69,420

360K users (user top artists)

Наряду с набором данных 1K поставляется набор данных пользователей 360K. Содержит информацию об отношениях между пользователем и исполнителем и информацию о пользователе. Информация о пользователе такая же, как и в 1 КБ, но объем данных достиг 360 КБ.Одной частью файла отношений пользователя и исполнителя является количество раз, когда пользователь слушает определенную группу. Статистика файла user-artist выглядит следующим образом:

Total Lines: 17,559,530
Unique Users: 359,347
Artists with MBID: 186,642
Artists without MBID: 107,373

HetRec 2011

Это было выпущено на конференции HetRec 2011 г.Датасет взят с Last.fm. Отличие от двух предыдущих примеров в том, что он содержит информацию о социальных друзьях и тегах. Среди них количество файлов относительно велико, но каждый файловый столбец очень мал, между которыми существует очевидная и простая связь, которая не будет повторяться. Статистика такова:

1892 users
17632 artists
12717 Дружба
92834 user-listened artist relations
11946 tags
186479 tag assignments (tas), i.e. tuples [user, tag, artist]

MSD's Lastfm

Этот набор данных от Lastfm можно увидеть на домашней странице MSD (еще одна, которую очень легко испортить), он служит дополнительной информацией для MSD и может быть напрямую связан с его идентификатором. Объем данных большой, а именно:

943,347 matched tracks MSD <-> Last.fm
505,216 tracks with at least one tag
584,897 tracks with at least one similar track
522,366 unique tags
8,598,630 (track - tag) pairs
56,506,688 (track - similar track) pairs

Та же странная структура каталогов, что и у MSD, каждой песне соответствует файл json, который выглядит так:

Имя файла TRAAAAW128F429D538.json. Такая кодировка может быть связана с песней в MSD. Основная песня, информация об авторе и теги представлены на рисунке. Что более уникально, так это список песен, похожих на эту песню, и значение сходства, предоставленное непосредственно Lastfm.

Другие наборы данных

fma: большой набор данных музыкального аудио, 917 ГиБ и 343 дня аудио по лицензии Creative Commons из 106 574 треков от 16 341 исполнителя и 14 854 альбомов, организованных в иерархической таксономии 161 жанра.
Pitchfork reviews: PitchforkЭто музыкальный онлайн-журнал. С 1999 года кто-то просканировал 18 000 музыкальных обзоров и разместил их на Kaggle для анализа и изучения. Формат представляет собой файл sqlite, а основная предоставляемая информация — идентификатор, название, исполнитель, ссылка на статью, рейтинг, автор, время публикации и т. д. статьи.
50 Years of Pop Music Lyrics: тексты ежегодных песен Billboard Hot100 на конец года с 1964 по 2015 год.
MetroLyrics: 380 000 текстов песен в формате csv, загруженных из MetroLyrics, поля включают название песни, исполнителя, жанр, текст.
kkbox: набор данных, использованный в соревновании WSDM 2018,kkboxКак азиатский поставщик музыкальных услуг, он предоставляет много информации об азиатских песнях, которой нет в других, упомянутых выше.
Spotify Song Attributes: автор вызывает API Spotify, чтобы получить данные о песнях 2017 года, и пытается получить и обучить модель, чтобы предсказать, нравится ему песня или нет.

API

Согласно некоторым официальным или частным API, вы можете создавать собственные наборы данных в соответствии с вашими потребностями.

last.fm API
echonest API
Spotify API
The Echo Nest / Spotify APIs work together
music brain API
API облачной музыки
Quora: What is the best, most complete API or database for searching music data?