Прежде чем официально представить рекомендательную систему, я хотел бы поделиться с вами классическим сценарием покупок: Хотите купить пачку картофельных чипсов?
- Если вы находитесь в круглосуточном магазине, вы можете положиться на себя, чтобы просмотреть все товары на полках и найти нужные чипсы.
- Если вы находитесь в большом супермаркете, вам нужно полагаться на информацию о классификации продуктов, чтобы не искать среди множества полок.
- Если вы используете приложение для электронной коммерции, вам нужна не только секретная информация, но и функция поиска, чтобы быстро найти нужную марку картофельных чипсов.
Из вышеприведенного описания нетрудно обнаружить, что, когда люди сталкиваются с различными объемами информации, им необходимы вспомогательные информационные услуги, чтобы эффективно удовлетворять свои потребности.
Кроме того, в приведенной выше сцене покупок есть скрытая квалификация, то есть существует явная потребность в покупках, то есть купить пачку картофельных чипсов. Однако часто у нас нет такой явной потребности, мы просто случайно прогуливаемся.
Это та почва, на которой рекомендательная система может играть мускулами:
- Существует перегрузка информацией, такой как контент, продукты и т. д.
- Пользователи не имеют четких потребностей большую часть времени
Ценность рекомендательной системы отражается в двух измерениях:
- Помогите пользователям найти контент или элементы, которые они раньше не видели, но которые им понравятся
- Позвольте контенту или элементам с длинным хвостом получить больше возможностей для показа и повысить активность кликов.
Чтобы осознать ценность системы рекомендаций, суть состоит в том, чтобы хорошо выполнить сортировку, а предпосылкой сортировки является возможность прогнозировать предпочтения пользователя, а в основе прогноза лежит историческое поведение пользователя.
Хотя рекомендательная система не может знать, что у пользователя на уме, поведение пользователя может быть объективно и точно записано, и то, что отражается за поведением, и есть истинные мысли пользователя.
На данный момент задача рекомендательной системы была предельно ясна: как использовать исторические данные о поведении пользователя, чтобы предоставлять пользователям персонализированный контент или элементы и прогнозировать потенциальные клики.
Исторические данные о поведении пользователя подобны куче ингредиентов.Как приготовить хорошее блюдо, нужно соответствовать объективным требованиям рецепта, то есть предпосылке.
Рекомендуемая посылка состоит в том, что «вещи собираются вместе, а люди делятся на группы». Мы используем данные для классификации контента или элементов, группировки пользователей, используем их в качестве рекомендуемого набора кандидатов, а затем используем сходство в качестве рекомендуемого значения веса. Это общая идеологическая основа рекомендательной системы. Конечно, будет много реализаций схемы с разными деталями.
Рекомендация на основе сотрудничества
Так называемая синергия заключается в сопоставлении поведения отдельного пользователя и пользователей всей платформы и поиске людей, контента или предметов, которые «пахнут одинаково» для них.
Популярный список ранжирования — это типичный сценарий приложения совместной фильтрации, но степень детализации набора кандидатов очень велика, а дедупликация отсутствует.
сотрудничество делится наВзаимодействие пользователейисинергия предмета.
Взаимодействие пользователей
Предпосылка сотрудничества пользователей заключается в том, что если историческое поведение двух пользователей очень похоже, можно показать, что они люди со схожими интересами, и, естественно, существует высокая вероятность рекомендуемого контента или элементов между собой, что отражает более социальный характер. рекомендация.
Социальная рекомендация, то есть просьба к друзьям порекомендовать контент или предметы самим себе, чтобы было легче открывать для себя что-то новое.
синергия предмета
Предпосылка совместной работы над элементами заключается в том, что интересы каждого пользователя ограничены определенными полями.Если два элемента принадлежат к списку интересов пользователя, то эти два элемента также ограничены определенными полями.
Однако, если два элемента относятся к списку интересов многих пользователей, они, вероятно, принадлежат к одному и тому же полю, поэтому сходство очень велико и может использоваться в качестве причины рекомендации, что отражает более персонализированную рекомендацию.
По сравнению с совместной работой пользователей совместная работа над элементами является более масштабируемой, поскольку количество элементов на платформе намного меньше, чем количество пользователей на платформе, скорость роста элементов намного ниже, чем скорость роста пользователей, а расчет схожесть элементов намного проще вычислить сходство пользователей, поэтому предпочтительнее выбирать элементы для совместной рекомендации.
В то же время также необходимо обратить внимание на интерференцию популярного контента или элементов, потому что популярные элементы будут отображаться в списке интересов большинства пользователей, поэтому они будут связаны с любым контентом или элементом. Нам нужно правильно вручную вмешиваться в популярные вещи, чтобы уменьшить их влияние.
Совместная рекомендация имеет фатальный недостаток, то есть она не может иметь дело сХолодный запуск, у недавно добавленных пользователей или элементов недостаточно исторических данных о поведении, поэтому сходство невозможно рассчитать.
Чтобы решить проблему холодного запуска, нам нужен новый набор решений - Рекомендации на основе контента.
Рекомендации на основе контента
Сам контент или элемент будут нести информацию. Пока мы можем в полной мере использовать эту информацию и завершить расчет сходства, мы можем продолжать предыдущую стратегию рекомендаций.
Детализация классификации и меток напрямую влияет на эффект контент-рекомендации по очень простой причине: чем мельче детализация, тем выше степень дискриминации и тем более она персонализирована.
Тег — это неиерархическая структура, ключевое слово, используемое для описания информации, и его можно использовать для описания семантики элемента.
Обычная практика заключается в анализе содержимого элемента, извлечении ключевых слов, использовании вектора ключевых слов для представления элемента, а затем использовании теоремы косинусов для вычисления сходства.
Мы также можем использовать предыдущую идею совместной фильтрации для оптимизации ключевых слов или тегов в элементах.Когда два ключевых слова или тега появляются во многих наборах элементов одновременно, мы можем подумать, что они имеют большее сходство и могут быть стандартизированы.
Стоит отметить, что совместная фильтрация отражает идею консолидации, Если вероятность того, что два элемента находятся вместе, намного больше, чем случайная вероятность, то между ними должна быть корреляция. Эта идея может помочь нам решить многие проблемы.
постскриптум
В дополнение к двум вышеупомянутым схемам рекомендаций, если мы хотим еще больше улучшить эффект, мы должны учитывать контекстную информацию и использовать вышеупомянутые модели прогнозирования (DeepFM, XGB и т. д.)
Также вдохновленные Word2Vec, мы можем использовать исторические данные о поведении пользователя для формирования данных последовательности пользователей или элементов посредством случайных обходов для завершения встраивания, чтобы сходство можно было вычислить более легко и эффективно, то есть встраивание графа.
Контекстная информация, в том числе дополнительные факторы, влияющие на принятие решений пользователем, такие как время доступа пользователя и его местоположение, добавляются в модель как важные функции. Например: эффект сезонности, летом пуховики сложно продать.
Рекомендательные системы склонныИнформация Кокон номерПоэтому требуется своевременное ручное вмешательство, и пользователю лучше время от времени просматривать несколько данных.
Наконец, буклет Nuggets для всех в Amway.«Глубокое понимание сегментации китайских слов в НЛП: от принципа к практике», что позволит вам с нуля освоить технологию сегментации китайских слов и войти в дверь НЛП.
Если приведенный выше контент полезен для вас, я надеюсь, что вы можете помочь, лайкнув, ретвитнув и прокомментировав.