Далее я изучу систему музыкальных рекомендаций, которой требуются данные для демонстрации алгоритма и инженерного кода, а затем обобщу набор музыкальных данных с открытым исходным кодом в Интернете.
Million Song Dataset
Когда дело доходит до набора музыкальных данных, первым должен быть MSD, который содержит информацию об 1 миллионе песен общим размером 280 ГБ. Поскольку объем данных действительно велик, он использует формат сжатия файлов h5 и предоставляет некоторыеcodeдля чтения таких файлов.
Каждая песня соответствует файлу, а поля включают все аспекты песни, такие какartist_mbid
,artist_name
,title
,tempo
и так далее, все поляперечислено здесь.
Путь странный, а в вопросах и ответах поясняется, что невозможно поместить все файлы в одну директорию.Каталог организован так:
Расположение песни — это иерархический каталог, образованный третьей, четвертой и пятой цифрами идентификаторов треков The Echo Nest, таких какMillionSong/data/A/D/H/TRADHRX12903CD3866.h5
.
Кроме того, на основе MSD сообщество также предоставило множество дополнительных наборов данных для облегчения исследований MSD в различных аспектах. Их легко найти на главной странице.
- The SecondHandSongs Dataset: информация о том, что на некоторые песни были сделаны каверы, иSecond HandЗначение производительности сайта для каждой обложки.
- The musiXmatch Dataset: Предоставляет тексты песен для 77% песен в MSD в виде наборов слов.
- The Last.fm Dataset: увидеть ниже
- The Echo Nest Taste Profile Subset: Echo Nest предоставляет набор данных о количестве воспроизведений песен, которые могут быть связаны с MSD, включая 1 миллион пользователей и 48 миллионов записей о воспроизведении.
- thisismyjam-to-MSD mapping: Музыкальная социальная сетьthisisjamпользовательские данные и связь с MSD.
- tagtraum genre annotations: обозначение музыкальных жанров.
- Top MAGD dataset: обозначение музыкальных жанров.
Набор данных Lastfm
last.fm— это британское интернет-радио и музыкальное сообщество, которое предоставляет разработчикамБогатый API, поэтому многие учреждения или отдельные лица создают наборы данных, вызывая эти API.
1K users (user full listening history)
Представлено в разделе 2.1 «Практики системы рекомендаций».этот набор данных, как представитель набора данных неявной обратной связи с контекстной информацией. Он состоит из двух файлов: записи Duolingo и информации о пользователе. Первый — это все записи воспроизведения музыки и время воспроизведения почти 1000 слушателей до 5 мая 2009 года, а также название музыки, имя исполнителя, идентификатор musicbrain и другая информация. Последний записывает пол, возраст, страну и время регистрации всех слушателей. Среди них статистика, зафиксированная при прослушивании песен, следующая:
- Total Lines: 19,150,868
- Unique Users: 992
- Artists with MBID: 107,528
- Artists without MBDID: 69,420
360K users (user top artists)
Наряду с набором данных 1K поставляется набор данных пользователей 360K. Содержит информацию об отношениях между пользователем и исполнителем и информацию о пользователе. Информация о пользователе такая же, как и в 1 КБ, но объем данных достиг 360 КБ.Одной частью файла отношений пользователя и исполнителя является количество раз, когда пользователь слушает определенную группу. Статистика файла user-artist выглядит следующим образом:
- Total Lines: 17,559,530
- Unique Users: 359,347
- Artists with MBID: 186,642
- Artists without MBID: 107,373
HetRec 2011
Это было выпущено на конференции HetRec 2011 г.Датасет взят с Last.fm. Отличие от двух предыдущих примеров в том, что он содержит информацию о социальных друзьях и тегах. Среди них количество файлов относительно велико, но каждый файловый столбец очень мал, между которыми существует очевидная и простая связь, которая не будет повторяться. Статистика такова:
- 1892 users
- 17632 artists
- 12717 Дружба
- 92834 user-listened artist relations
- 11946 tags
- 186479 tag assignments (tas), i.e. tuples [user, tag, artist]
MSD's Lastfm
Этот набор данных от Lastfm можно увидеть на домашней странице MSD (еще одна, которую очень легко испортить), он служит дополнительной информацией для MSD и может быть напрямую связан с его идентификатором. Объем данных большой, а именно:
- 943,347 matched tracks MSD <-> Last.fm
- 505,216 tracks with at least one tag
- 584,897 tracks with at least one similar track
- 522,366 unique tags
- 8,598,630 (track - tag) pairs
- 56,506,688 (track - similar track) pairs
Та же странная структура каталогов, что и у MSD, каждой песне соответствует файл json, который выглядит так:
Имя файла TRAAAAW128F429D538.json. Такая кодировка может быть связана с песней в MSD. Основная песня, информация об авторе и теги представлены на рисунке. Что более уникально, так это список песен, похожих на эту песню, и значение сходства, предоставленное непосредственно Lastfm.
Другие наборы данных
- fma: большой набор данных музыкального аудио, 917 ГиБ и 343 дня аудио по лицензии Creative Commons из 106 574 треков от 16 341 исполнителя и 14 854 альбомов, организованных в иерархической таксономии 161 жанра.
- Pitchfork reviews: PitchforkЭто музыкальный онлайн-журнал. С 1999 года кто-то просканировал 18 000 музыкальных обзоров и разместил их на Kaggle для анализа и изучения. Формат представляет собой файл sqlite, а основная предоставляемая информация — идентификатор, название, исполнитель, ссылка на статью, рейтинг, автор, время публикации и т. д. статьи.
- 50 Years of Pop Music Lyrics: тексты ежегодных песен Billboard Hot100 на конец года с 1964 по 2015 год.
- MetroLyrics: 380 000 текстов песен в формате csv, загруженных из MetroLyrics, поля включают название песни, исполнителя, жанр, текст.
- kkbox: набор данных, использованный в соревновании WSDM 2018,kkboxКак азиатский поставщик музыкальных услуг, он предоставляет много информации об азиатских песнях, которой нет в других, упомянутых выше.
- Spotify Song Attributes: автор вызывает API Spotify, чтобы получить данные о песнях 2017 года, и пытается получить и обучить модель, чтобы предсказать, нравится ему песня или нет.
API
Согласно некоторым официальным или частным API, вы можете создавать собственные наборы данных в соответствии с вашими потребностями.