Сводка музыкальных наборов данных

Большие данные
Сводка музыкальных наборов данных

Далее я изучу систему музыкальных рекомендаций, которой требуются данные для демонстрации алгоритма и инженерного кода, а затем обобщу набор музыкальных данных с открытым исходным кодом в Интернете.

Million Song Dataset

Когда дело доходит до набора музыкальных данных, первым должен быть MSD, который содержит информацию об 1 миллионе песен общим размером 280 ГБ. Поскольку объем данных действительно велик, он использует формат сжатия файлов h5 и предоставляет некоторыеcodeдля чтения таких файлов.

Каждая песня соответствует файлу, а поля включают все аспекты песни, такие какartist_mbid,artist_name,title,tempoи так далее, все поляперечислено здесь. Путь странный, а в вопросах и ответах поясняется, что невозможно поместить все файлы в одну директорию.Каталог организован так: Расположение песни — это иерархический каталог, образованный третьей, четвертой и пятой цифрами идентификаторов треков The Echo Nest, таких какMillionSong/data/A/D/H/TRADHRX12903CD3866.h5.

Кроме того, на основе MSD сообщество также предоставило множество дополнительных наборов данных для облегчения исследований MSD в различных аспектах. Их легко найти на главной странице.

  • The SecondHandSongs Dataset: информация о том, что на некоторые песни были сделаны каверы, иSecond HandЗначение производительности сайта для каждой обложки.
  • The musiXmatch Dataset: Предоставляет тексты песен для 77% песен в MSD в виде наборов слов.
  • The Last.fm Dataset: увидеть ниже
  • The Echo Nest Taste Profile Subset: Echo Nest предоставляет набор данных о количестве воспроизведений песен, которые могут быть связаны с MSD, включая 1 миллион пользователей и 48 миллионов записей о воспроизведении.
  • thisismyjam-to-MSD mapping: Музыкальная социальная сетьthisisjamпользовательские данные и связь с MSD.
  • tagtraum genre annotations: обозначение музыкальных жанров.
  • Top MAGD dataset: обозначение музыкальных жанров.

Набор данных Lastfm

last.fm— это британское интернет-радио и музыкальное сообщество, которое предоставляет разработчикамБогатый API, поэтому многие учреждения или отдельные лица создают наборы данных, вызывая эти API.

1K users (user full listening history)

Представлено в разделе 2.1 «Практики системы рекомендаций».этот набор данных, как представитель набора данных неявной обратной связи с контекстной информацией. Он состоит из двух файлов: записи Duolingo и информации о пользователе. Первый — это все записи воспроизведения музыки и время воспроизведения почти 1000 слушателей до 5 мая 2009 года, а также название музыки, имя исполнителя, идентификатор musicbrain и другая информация. Последний записывает пол, возраст, страну и время регистрации всех слушателей. Среди них статистика, зафиксированная при прослушивании песен, следующая:

  • Total Lines: 19,150,868
  • Unique Users: 992
  • Artists with MBID: 107,528
  • Artists without MBDID: 69,420

360K users (user top artists)

Наряду с набором данных 1K поставляется набор данных пользователей 360K. Содержит информацию об отношениях между пользователем и исполнителем и информацию о пользователе. Информация о пользователе такая же, как и в 1 КБ, но объем данных достиг 360 КБ.Одной частью файла отношений пользователя и исполнителя является количество раз, когда пользователь слушает определенную группу. Статистика файла user-artist выглядит следующим образом:

  • Total Lines: 17,559,530
  • Unique Users: 359,347
  • Artists with MBID: 186,642
  • Artists without MBID: 107,373

HetRec 2011

Это было выпущено на конференции HetRec 2011 г.Датасет взят с Last.fm. Отличие от двух предыдущих примеров в том, что он содержит информацию о социальных друзьях и тегах. Среди них количество файлов относительно велико, но каждый файловый столбец очень мал, между которыми существует очевидная и простая связь, которая не будет повторяться. Статистика такова:

  • 1892 users
  • 17632 artists
  • 12717 Дружба
  • 92834 user-listened artist relations
  • 11946 tags
  • 186479 tag assignments (tas), i.e. tuples [user, tag, artist]

MSD's Lastfm

Этот набор данных от Lastfm можно увидеть на домашней странице MSD (еще одна, которую очень легко испортить), он служит дополнительной информацией для MSD и может быть напрямую связан с его идентификатором. Объем данных большой, а именно:

  • 943,347 matched tracks MSD <-> Last.fm
  • 505,216 tracks with at least one tag
  • 584,897 tracks with at least one similar track
  • 522,366 unique tags
  • 8,598,630 (track - tag) pairs
  • 56,506,688 (track - similar track) pairs

Та же странная структура каталогов, что и у MSD, каждой песне соответствует файл json, который выглядит так:

img

Имя файла TRAAAAW128F429D538.json. Такая кодировка может быть связана с песней в MSD. Основная песня, информация об авторе и теги представлены на рисунке. Что более уникально, так это список песен, похожих на эту песню, и значение сходства, предоставленное непосредственно Lastfm.

Другие наборы данных

  • fma: большой набор данных музыкального аудио, 917 ГиБ и 343 дня аудио по лицензии Creative Commons из 106 574 треков от 16 341 исполнителя и 14 854 альбомов, организованных в иерархической таксономии 161 жанра.
  • Pitchfork reviews: PitchforkЭто музыкальный онлайн-журнал. С 1999 года кто-то просканировал 18 000 музыкальных обзоров и разместил их на Kaggle для анализа и изучения. Формат представляет собой файл sqlite, а основная предоставляемая информация — идентификатор, название, исполнитель, ссылка на статью, рейтинг, автор, время публикации и т. д. статьи.
  • 50 Years of Pop Music Lyrics: тексты ежегодных песен Billboard Hot100 на конец года с 1964 по 2015 год.
  • MetroLyrics: 380 000 текстов песен в формате csv, загруженных из MetroLyrics, поля включают название песни, исполнителя, жанр, текст.
  • kkbox: набор данных, использованный в соревновании WSDM 2018,kkboxКак азиатский поставщик музыкальных услуг, он предоставляет много информации об азиатских песнях, которой нет в других, упомянутых выше.
  • Spotify Song Attributes: автор вызывает API Spotify, чтобы получить данные о песнях 2017 года, и пытается получить и обучить модель, чтобы предсказать, нравится ему песня или нет.

API

Согласно некоторым официальным или частным API, вы можете создавать собственные наборы данных в соответствии с вашими потребностями.