Система рекомендаций может предоставить пользователям персонализированный опыт.Теперь практически каждая крупная платформа электронной коммерции и информационная платформа будут использовать систему рекомендаций для предоставления тысяч услуг пользователям по их собственной оценке. Средняя средняя точность (MAP) — это одна из метрик для оценки производительности рекомендательных систем.
Однако использование других диагностических метрик и инструментов визуализации может обеспечить более глубокую оценку модели и даже некоторые дополнительные сведения. В этой статье рассматриваются отзыв, охват, персонализация и сходство в таблицах, а также используются эти показатели для сравнения трех простых рекомендательных систем.
Набор данных кинообъектива
Данные, используемые в примерах в этом посте,Movielens 20mнабор данных. Данные включают пользовательские рейтинги фильмов и ярлыки для жанров фильмов. (Чтобы увеличить время обучения, данные были уменьшены, и рейтинги включали только оценки пользователей, которые оценили более 1000 фильмов, и оценки от 3 звезд и выше.)
Модель
В этой статье тестируются и сравниваются три разные рекомендательные системы:
1. Случайная рекомендация (рекомендовать 10 фильмов случайным образом для каждого пользователя)
2. Рекомендовать на основе популярности (рекомендовать 10 самых популярных фильмов каждому пользователю)
3. Коллаборативный фильтр (метод матричной факторизации с использованием SVD)
Давайте углубимся в эти показатели и диагностические графики и сравним модели!
длинный хвост
Графики с длинным хвостом используются для анализа моделей популярности в данных о взаимодействии пользователя с товаром, таких как клики, рейтинги или покупательское поведение. Как правило, только небольшое количество элементов имеет большое количество взаимодействий, которые мы называем «головой», в то время как большинство элементов сгруппированы в «длинный хвост», на долю которого приходится лишь небольшая часть взаимодействий.
Многие популярные элементы наблюдаются несколько раз в обучающих данных, поэтому для рекомендательной системы нетрудно точно предсказать эти элементы. В наборе данных о фильмах самыми популярными фильмами являются блокбастеры и классика. Эти фильмы хорошо известны большинству пользователей, и рекомендация этих фильмов может не быть персонализированной рекомендацией для пользователей и может не помочь пользователям открыть для себя другие новые фильмы. Релевантные рекомендации определяются как рекомендации для элементов, которые пользователи дают положительные отзывы при тестировании данных. Метрики здесь используются для оценки актуальности и полезности рекомендательных систем.
КАРТА и МАР
Система рекомендаций генерирует упорядоченный список рекомендаций для каждого пользователя в тестовом наборе. Средняя точность (MAP) может дать разработчикам представление об актуальности списка рекомендуемых элементов, в то время как частота отзыва может дать разработчикам представление об эффективности отладки рекомендательной системы, например отладке всех элементов, которым пользователи дают положительные оценки. Ниже приведены подробные описания MAP и MAR:
Средняя средняя точность (MAP) для рекомендательных системпокрытие
Покрытие относится к проценту обучающих данных, которые модель может рекомендовать в тестовом наборе. В этом примере рекомендация по популярности имеет покрытие всего 0,05% и рекомендует только 10 товаров. Случайный рекомендатель имеет почти 100% покрытие. Неожиданно совместная фильтрация может рекомендовать только 8,42% элементов, для которых она была обучена.
Сравнение покрытия трех рекомендательных систем:
персонализировать
Персонализация — это способ оценить, рекомендует ли модель один и тот же элемент разным пользователям. Между списками рекомендаций пользователей есть различия (1-косинусное сходство). Приведенный ниже пример является хорошей иллюстрацией того, как рассчитывается степень персонализации.
Примерный список рекомендуемых элементов для 3 разных пользователей:
Во-первых, рекомендуемый пользователем элемент представлен в виде бинарной индикаторной переменной (1: рекомендовать элемент пользователю. 0: не рекомендовать элемент пользователю).
Затем вычисляется матрица косинусного сходства по всем векторам рекомендаций пользователей.
Наконец, вычислите среднее значение верхнего треугольника матрицы косинуса. Персонализация представляет собой 1-среднее косинусное сходство.
Высокий показатель персонализации указывает на то, что пользователям рекомендуют по-разному, что также означает, что модель обеспечивает персонализированный опыт для каждого пользователя.
Сходство в списках
Сходство внутри списка — это среднее косинусное сходство всех элементов в списке рекомендаций. В расчете используются характеристики рекомендуемых элементов (например, жанры фильмов) для расчета сходства. Этот метод расчета можно проиллюстрировать следующим примером.
Пример рекомендаций по идентификаторам фильмов для 3 разных пользователей:
Эти особенности жанра фильма используются для расчета косинусного сходства между всеми элементами, рекомендованными пользователю. Эта матрица показывает характеристики всех фильмов, рекомендованных пользователю 1.
Мы можем вычислить сходство для каждого пользователя в таблице и усреднить всех пользователей тестового набора, чтобы получить оценку модели в таблице сходства.
Если система рекомендаций очень похожа на рекомендуемый список элементов для каждого пользователя (например, пользователь получает только рекомендуемые романтические фильмы), то сходство будет высоким в списке.
Используйте правильные тренировочные данные
Мы можем быстро улучшить рекомендательную систему, выполнив следующие операции с обучающими данными:
1. Убрать популярные элементы из обучающих данных (это касается случаев, когда пользователи могут найти эти элементы самостоятельно, а также когда они находят их непригодными для использования).
2. Масштабируйте рейтинг элементов по пользовательской ценности, такой как средняя стоимость транзакции. Это помогает модели рекомендовать товары, которые приводят к лояльным или ценным клиентам.
в заключении
Хорошая рекомендательная система может генерировать как практические, так и релевантные результаты рекомендаций.
Использование нескольких показателей оценки для оценки модели может более полно измерить производительность рекомендательной системы.
Оригинальная ссылка:Evaluation Metrics for Recommender Systems
Вышеупомянутый контент рекомендован и составлен 4Paradigm.Он предназначен только для обучения и общения, а авторские права принадлежат оригинальному автору.
Связанное чтение:
Концепции и показатели для оценки системы рекомендаций
Рабочий процесс системы рекомендаций
Хотите узнать о рекомендательных системах? Смотри сюда! (2) - Метод нейронной сети
Как AutoML реализует автоматический онлайн и O&M интеллектуальной системы рекомендаций?
Начало работы с рекомендательными системами, список знаний, которые вы не должны пропустить
Если вы хотите узнать больше, выполните поиск и подпишитесь на общедоступную учетную запись WeChat Xianjian (ID: dsfsxj).
Этот аккаунтИнтеллектуальные рекомендации четвертой парадигмы Продукты Первая рекомендацияофициальный аккаунт. Аккаунт основан на компьютерной сфере, особенно на передовых исследованиях, связанных с искусственным интеллектом. Он направлен на то, чтобы поделиться с общественностью большим количеством знаний, связанных с искусственным интеллектом, и способствовать пониманию общественностью искусственного интеллекта с профессиональной точки зрения. Предоставить открытую платформу. для обсуждения, общения и обучения, чтобы каждый мог как можно скорее насладиться ценностью, созданной искусственным интеллектом.