[Примечание редактора] Эта учетная запись является официальной учетной записью для первой рекомендации интеллектуальных рекомендательных продуктов 4Paradigm. Эта учетная запись основана на компьютерной области, особенно на передовых исследованиях, связанных с искусственным интеллектом. Она направлена на то, чтобы поделиться с общественностью большим количеством знаний, связанных с искусственным интеллектом, и способствовать пониманию общественностью искусственного интеллекта с профессиональной точки зрения. открытая платформа для обсуждения, общения и обучения, чтобы каждый мог как можно скорее насладиться ценностью, созданной искусственным интеллектом.
В этой статье примерно организованы важные понятия и термины, которые необходимо знать в процессе изучения рекомендательной системы.Я надеюсь, что студенты, которые хотят начать работу, могут извлечь из этого пользу.
1. Система рекомендаций
Рекомендательные системы эквивалентны информационным «фильтрам», которые решают проблему информационной перегрузки и помогают людям принимать более взвешенные решения. Его основной принцип состоит в том, чтобы установить модель интересов пользователя, основанную на прошлом поведении пользователя (таком как покупка, рейтинг, клики и т. д.), а затем использовать определенный алгоритм рекомендаций, чтобы рекомендовать пользователю наиболее вероятный контент, как показано на следующий рисунок:
2. Данные
Для выполнения приведенных выше расчетов нам нужны три части данных:
2.1 Данные пользователя: Относится к данным, используемым для построения пользовательской модели. Эти данные различаются в зависимости от различных алгоритмов рекомендаций. Типичные данные включают точки интереса пользователя, профиль пользователя, социальные отношения пользователя и т. д.;
2.2 Данные о содержании: относится к данным, используемым для описания основных атрибутов рекомендуемого контента, эти атрибуты в основном связаны с конкретным контентом, например, с режиссером, актером, типом и стилем фильма;
2.3 Данные о пользовательском контенте: взаимодействие пользователя с контентом относится к данным, отражающим внутренние отношения между пользователями и контентом, которые делятся на два типа: неявные и явные; явные в основном относятся к интерактивным данным, таким как оценка, рейтинг, покупка и т. д., которые могут четко отражать интерес пользователя к контенту Неявный Относится к интерактивным данным, косвенно отражающим интерес пользователя к контенту, таким как клики пользователя и записи поиска.
3. Алгоритмы
Текущие основные алгоритмы рекомендаций можно разделить на следующие шесть категорий (неосновные методы разделения):
3.1 Рекомендации по содержанию(На основе контента): рекомендовать похожий контент на основе того, что понравилось пользователям в прошлом.
3.2 Рекомендация на основе совместной фильтрации(Совместная фильтрация, CF): рекомендовать аналогичный контент текущему пользователю на основе интересов пользователей, похожих на текущего пользователя.
3.3 Рекомендации на основе демографических данных(На основе демографических данных): давайте общие рекомендации на основе общей демографической информации пользователей, такой как возраст и регион.
3.4 Рекомендация, основанная на знаниях(На основе знаний): рекомендовать определенный контент конкретным пользователям на основе конкретных знаний о пользователях и контенте в предметной области.
3.5 Групповые рекомендации(На основе сообщества): в соответствии с отношениями пользователя в социальных сетях, рекомендовать пользователю контент, который интересует их друзей.
3.6 Гибридная рекомендация(Гибридная рекомендательная система): определенная комбинация вышеперечисленных алгоритмов рекомендаций.
4. Предварительная обработка данных
В дополнение к обычным методам предварительной обработки данных для рекомендательных системНормализованный,замена переменнойКроме этого, самое главноерасчет сходства,выборкаиуменьшение размерности.
4.1 Расчет подобия
Обычно есть два способа измерения сходства. Один из них заключается в непосредственном вычислении сходства, а другой — в вычислении расстояния. Расстояние, по сути, является мерой степени несходства. Чем меньше расстояние, тем выше сходство.
4.1.1 Мера подобия
4.1.1.1 Косинусное подобие
Наиболее распространенным способом вычисления подобия является косинусное сходство.Для двух векторов в n-мерном пространстве сходство вычисляется по следующей формуле. Его геометрический смысл - значение косинуса пространственного угла между двумя векторами в диапазоне от -1 до 1. Значение -1 означает прямо противоположное, значение 1 означает точно такое же, а остальные означают что-то среднее.
4.1.1.2 Коэффициент корреляции Пирсона
Другим распространенным способом вычисления сходства является коэффициент корреляции Пирсона. Фактическое значение коэффициента корреляции Пирсона — это линейная корреляция между двумя случайными величинами x и y со значениями в диапазоне от -1 до 1. -1 означает отрицательную линейную корреляцию, 1 означает положительную линейную корреляцию, а остальные значения означают нечто среднее.
4.1.1.3 Коэффициент Жаккара
Способ Жаккара агрегировать сходство.
4.1.2 Метрики расстояния
4.1.2.1 Евклидово расстояние
Наиболее распространенной метрикой расстояния является евклидово расстояние, которое вычисляет абсолютное расстояние между двумя точками в многобитном пространстве.
4.1.2.2 Манхэттенское расстояние
Манхэттенское расстояние, также известное как расстояние до городских кварталов, является результатом суммирования расстояний по прямым линиям в нескольких измерениях.
4.1.2.3 Расстояние Чебышева
4.1.2.4 Расстояние Минковского
Расстояние Минковского является обобщением евклидова расстояния (p=2), манхэттенского расстояния (p=1) и расстояния Чебышева (p=бесконечность).
4.1.2.5 Стандартизированное евклидово расстояние
Стандартизированное евклидово расстояние создано для устранения важного недостатка четырех вышеупомянутых расстояний, то есть указанные четыре расстояния рассматривают различия различных показателей размерности как одни и те же. Стандартное евклидово расстояние использует стандартное отклонение каждого измерения, а затем рассчитывается после стандартизации измерения.
4.1.2.6 Расстояние Махаланобиса
Расстояние Махаланобиса является обобщением стандартизированного евклидова расстояния.Когда ковариационная матрица представляет собой диагональную матрицу, расстояние Махаланобиса становится стандартизированным евклидовым расстоянием.
4.2 Отбор проб
Методы выборки в основном используются при интеллектуальном анализе данных в двух местах:Во-первых, на этапах предобработки и постобработки данных, во избежание слишком большого масштаба расчета, выполняется выборочный расчет; во-вторых, на этапе интеллектуального анализа данных обычно выполняется кросс-валидация на обученной модели, для чего требуется выборка разделить все выборки на обучающую выборку и тестовую выборку.
Выборку обычно называютслучайная выборка, который в основном используется, когда все точки выборки можно считать неразличимыми. Есть еще одноСтратифицированная выборка, когда выборку необходимо значительно разделить на разные подмножества, отбирайте каждое подмножество отдельно.
4.3 Уменьшение размерности
В статистической теории обучения, когда размер выборки увеличивается, сложность изучаемой модели растет экспоненциально с увеличением размера, явление, обычно называемое «проклятие размерностиЭто означает, что если мы хотим изучить модель с той же точностью в пространстве высокой размерности, что и в пространстве низкой размерности, количество необходимых выборок растет экспоненциально.
Уменьшение размерности часто используется для борьбы с проклятием размерности. ПроходятСуществует две идеи постоянного уменьшения размерности: одна состоит в том, чтобы выбрать некоторые измерения, которые могут наилучшим образом выразить данные из многомерных данных, и использовать эти измерения для представления данных, что называется выбором признаков; данные для представления данных.Отображение в низкоразмерное пространство с помощью некоторого хитрого преобразования называется извлечением признаков.
Анализ главных компонентов (PCA) является наиболее важным методом выбора признаков. Он может получить вклад каждого измерения в минимальную среднеквадратичную ошибку всех данных посредством декомпозиции признаков, чтобы количественно оценить вклад каждого измерения в информацию, содержащуюся в данных. Затем сохраните некоторые из наиболее важных измерений, отбросьте некоторые незначительные измерения и уменьшите размерность данных.
Разложение по сингулярным значениям (SVD) является основным методом построения признаков. Он отображает данные из многомерного пространства в низкоразмерное пространство путем матричной декомпозиции и уменьшает размерность данных.
5. Интеллектуальный анализ данных — классификация
Классификация является основным содержанием интеллектуального анализа данных, и существует множество методов, каждый из которых имеет различные предположения о данных и теоретическую поддержку. Некоторые из наиболее репрезентативных алгоритмов кратко перечислены ниже.
5.1 KNN(K-nearest Neighbor)
KNN — самый простой для понимания классификатор, он не обучает никакую модель. Когда необходимо предсказать неизвестную выборку, он находит K точек, ближайших к неизвестной выборке из известных выборок, и прогнозирует категорию неизвестной выборки в соответствии с категориями этих K точек.
Его основным недостатком является то, что он требует очень большого размера выборки, а поскольку у него нет обученной модели, ему необходимо вычислять k расстояний для каждого прогноза, что требует больших вычислительных ресурсов.
5.2 Дерево решений
Дерево решений абстрагирует процесс классификации в виде дерева, которое разделяет ветви дерева, максимизируя прирост информации, и, наконец, останавливает деление дерева, устанавливая порог нечистоты для формирования окончательного дерева решений.
Его главное преимущество в том, что обучение и предсказание модели происходит очень быстро, недостаток в том, что точность модели иногда ниже, чем у других классификаторов. Однако это можно значительно преодолеть с помощью ансамблевого обучения.Например,случайный лес с идеей упаковки и GBDT с идеей повышения являются расширениямидерева решений.Они объединяют результаты классификации нескольких деревьев решений в Объединение более точных классификаторов.
5.3 Классификатор на основе правил
Классификаторы, основанные на правилах, обычно используют правила «если..., то...» для классификации. Его применимость ограничена, трудно получить надежные правила, и обычно он используется реже.
5.4 Байесовский классификатор
Байесовский классификатор на самом деле представляет собой класс классификаторов, в основном использующих байесовскую формулу, путем оценки априорной вероятности и вероятности правдоподобия и использования части априорной информации для вычисления значения данных каждого измерения данной выборки. образец принадлежит классу.
5.5 Искусственная нейронная сеть (ИНС)
Нейронная сеть — это операционная модель, состоящая из взаимосвязанных связей между большим количеством узлов (или нейронов). Каждый узел представляет определенную выходную функцию, называемую функцией активации. Соединение между каждыми двумя узлами представляет собой взвешенное значение сигнала, проходящего через соединение, называемое весом, которое эквивалентно памяти искусственной нейронной сети. Выход сети зависит от способа подключения сети, значения веса и функции возбуждения. Сама сеть обычно является приближением определенного алгоритма или функции в природе, а также может быть выражением логической стратегии.
5.6 Машина опорных векторов (SVM)
Машина опорных векторов представляет собой представление линейного классификатора. В отличие от байесовского классификатора, который сначала оценивает плотность вероятности, а затем вычисляет дискриминантную функцию, линейный классификатор напрямую оценивает линейный дискриминант, минимизирует целевую функцию и использует метод выпуклой оптимизации для решения конечного линейного дискриминанта.
Это один из самых популярных классификаторов, который обычно считается быстрым в обучении, прогнозирующим и точным, поэтому он широко используется в различных областях.
5.7 Обучение ансамблю
Идея ансамблевого обучения состоит в том, чтобы объединить несколько слабых классификаторов, чтобы сформировать сильный классификатор, обычно сbaggingиboostingДва способа мышления.
5.8 Оценка классификатора
Оценка классификатора является важным шагом в оценке производительности классификатора, который в основном имеет следующие критерии:
Precision-recall: коэффициент точного отзыва, рассчитанный в соответствии с матрицей путаницы.
F1: всеобъемлющий индикатор, сочетающий в себе точность и полноту отзыва
ROC: Интуитивно понятное сравнение кривых производительности классификатора
AUC: Количественное выражение ROC
MAE: средняя абсолютная ошибка
RMSE: среднеквадратичная ошибка
использованная литература:
- Recommender System Handbook
- «Практика рекомендательной системы»
Каждый может ставить лайки, добавлять в избранное и делиться другими техническими галантерейными товарами с друзьями вокруг вас.
Связанное чтение:
Начало работы с рекомендательными системами, список знаний, которые вы не должны пропустить
Каждый член Четвертой Парадигмы внес свой вклад в искусственный интеллект.Под этой учетной записью вы можете прочитать академические границы, знания, галантерейные товары, отраслевую информацию и внутренний обмен членами Парадигмы из компьютерной области.
Для получения дополнительной информации, пожалуйста, выполните поиск и подпишитесь на официальную страницу Weibo@Рекомендуется в первую очередь, общедоступный аккаунт WeChat (ID: dsfsxj).