Неявный отзыв и машинное обучение в рекомендательных системах (1)

машинное обучение

Во-первых, о чем мы говорим, когда говорим на эту тему?

Что со мной?

Кхм, раз уж ты зашел, бро, это значит, что ты скелет пораженный, целеустремленный, молодой и наивный... ах нет, это хороший мальчик или хорошая девочка, которая хочет чему-то научиться, давай поболтаем~

С быстрым развитием сети и автоматизации эта эпоха полна различных беспрецедентныхКак извлечь ценную информацию из массивных наборов данных, использование явных инструкций явно больше не является оптимальным подходом. Например, сортировка поисковой информации google / bing / baidu, Toutiao / Douyin и другие, рекомендуемые в качестве основного приложения, спам, вредоносная маркировка телефонных номеров и т. д., предполагая, что все вышеперечисленные «индивидуальные» действия для отдельных пользователей должны полагаться на ясной Программе, количество кода, стоящего за ней, слишком велико, чтобы оценить, что произошло за этим, разве вам не любопытно~~~ Приходите и послушайте мою чепуху.

Что такое машинное обучение?

Мингрен тайком не говори, определение машинного обучения: "Наука, которая не полагается на явные процедуры и использует компьютеры для обучения". Не пугайтесь помешательства на ИИ, это все уловка капитализма, волны приходят и уходят, неважно, высокий вы или нет! Решение проблем - это король!

Простая классификация: два! Контролируемое и неконтролируемое обучение

1,Алгоритм контролируемого обученияОбучение с учителем означает, что набор обучающих данных, предоставленный для расчета, представляет собой m групп «стандартного ввода» и соответствующего «стандартного ответа» в надежде, что алгоритм будет обучаться.Стандартный ввод и стандартные ответы напрямую связаны, этот результат обучения можно использовать для прогнозирования соответствующего результата для нового ввода.

Например, в нашем экзаменационном образовании какие эмоции хочет выразить автор этой статьи? Эй, вы, должно быть, ответили на этот вопрос. Почему вы ответили именно так, потому что вы знаете, что такой ответ включает в себя несколько моментов. Почему вы знаете, потому что вы нашли закономерность между вопросом и ответом, и эта закономерность есть результат вашего обучения. Черт, сказал он серьезно,Цель контролируемого алгоритма — найти шаблоны, которые дают правильные результаты для новых входных данных..

Немного больше подразделов, обучение с учителем включает в себя проблемы регрессии или проблемы классификации. «Рутина» задачи регрессии используется для получения непрерывных результатов, например, результат обучения может быть непрерывной функцией, которая может оценить стоимость дома на основе площади. «Рутина» задач классификации используется для получения дискретного результата, например, дискретная функция имеет только два значения 0 или 1, а ваш будущий первый ребенок — мальчик или девочка.

2,Алгоритм обучения без учителяПо сравнению с вышеизложенным существенное отличие обучения без учителя состоит в том, что оно не дает алгоритму стандартного ответа. Пусть сам алгоритмнайти какую-то структуру данных в наборе данных, делится на разныекластеризация. Алгоритм кластеризации — это типичный алгоритм обучения без учителя, который используется для поиска тесно связанной информации и часто используется в сценариях с очень большим объемом данных. Например:

  1. В крупных центрах обработки данных машины в больших вычислительных кластерах, которые имеют тенденцию координировать свою работу, объединяются, чтобы работать быстрее.
  2. Анализ социальных сетей для выявления кругов знакомств с рейтингом друзей.
  3. Пользовательские данные рынка, автоматическая сегментация рынка, сегментация клиентов на разные сегменты рынка.
  4. Анализ астрономических данных.
  5. Поиск ближайшего соседа, обычно используемый в рекомендательных системах(NN, NearestNeighborSearch) задача неконтролируемых ближайших соседей состоит в том, чтобы найти заданное количество или диапазон точек, ближайших к точке запроса по расстоянию от обучающей выборки.

Что такое неявный отзыв?

Рекомендуемая система

Сначала краткое введениеРекомендуемая система,Рекомендательная система — это система фильтрации информации, которая прогнозирует рейтинг или предпочтения пользователя в отношении элементов, а затем реализует персонализированные рекомендации.. Сегодняшние заголовки, Douyin, информационный поток Baidu, информационный поток Google и т. д., ядром которых является рекомендательная система, стоящая за ним.

Что значит вспомнить?

Рекомендуемая системаЭто также очень большая тематическая система, среди которойВключая нижний отзыв, грубый ряд над отзывом и точный ряд перед возвратом., и, наконец, выбрать более дюжины фрагментов информации из сотен миллионов фрагментов информации для обратной связи с пользователями. Так называемый отзыв, когда вы впервые соприкасаетесь с рекомендательной системой, вы можете прочитать только буквальное значение и не можете понять смысл отзыва.Отзыв можно понимать как грубый выбор партии продуктов, которые будут рекомендованы пользователям. , что эквивалентно предоставлению пакета наборов кандидатов для грубого выбора.

Неявная рекомендация, о которой мы говорим, является частью модуля отзыва в рекомендательной системе..

Основной алгоритм неявного отзыва: Ядром неявного отзыва является алгоритм кластеризации в неконтролируемом обучении, упомянутый выше.

Что значит неявный?

Неявное относительно явного.

Отображение отображения проще для понимания и может быть понято как вспоминание ключевого слова. Например, поиск по ключевому слову «ANN» может возвращать некоторые связанные документы по аналогичным алгоритмам ближайшего соседа (приблизительный ближайший сосед, ANN) или последние отчеты, связанные с нейронной сетью ( искусственная нейронная сеть, называемая ИНС).

Так что же такое неявный отзыв?

Когда дело доходит до неявного, мы должны сначала объяснитьвекторная вспомогательная машина, алгоритм обучения использует множество атрибутов/функций/подсказок, чтобы делать прогнозы, и этот огромный объем информации может переполнять память или вообще быть невозможным для вычисления. Мы надеемся пройтисопоставьте эту информацию с многомерным вектором, так что одно сообщение может быть сжато и выражено. Поскольку эта векторная информация, по-видимому, сама по себе не имеет четкого значения, ее также называют «неявной» памятью.

Векторы слов. Общепринятой практикой подготовки данных для алгоритмов кластеризации является определение общего набора числовых данных, свойства которых можно использовать для сравнения элементов данных.

One-hot Vectorоднократное кодирование Позиция соответствующего слова устанавливается на 1, а другого устанавливается на 0 Например: Среди Короля, Королевы, Мужчин, Женщин вектор, соответствующий Королеве, может быть выражен как [0, 1, 0, 0] Недостаток горячего кодирования очень очевиден, потому что он слишком разреженный, размерность одного вектора очень высока, а информативность слишком мала.

Для решения проблемы однократного кодирования вводится понятие вектора слов.

слово вектор: вектор слов может решить проблему горячего кодирования, упомянутую выше, методСопоставьте каждое слово с более коротким вектором путем обучения:

  1. Все векторы слов составляют каждое слово словаря.
  2. Векторы слов измеряют сходство. (контекст введен во время обучения) Вышеупомянутый процесс называетсявложение слов,СейчасВставьте многомерный вектор слова в малоразмерный вектор слова.

Word2Vecэто модель, обычно используемая в отрасли для создания векторов слов (семантическая векторизация) Это упрощенная нейронная сеть, которая представляет каждое слово как K-мерный вектор действительных чисел (каждое действительное число соответствует признаку),Сопоставьте группы похожих слов местам, расположенным близко друг к другу в K-мерном векторном пространстве.. Word2Vec имеет две важные модели CBOW и Skip-gram. Вход CBOW — это вектор контекстно-зависимых слов характерного слова, который подходит для небольших библиотек; вход Skip-Gram — это вектор слов конкретных слов, который больше подходит для больших библиотек.


хехе, резюмирую~

Неявный отзыв является частью системы отзыва рекомендаций, которая извлекает наиболее похожие объекты topk в качестве рекомендуемого набора кандидатов посредством семантической векторизации..

Ядро неявного отзыва использует связанные с машинным обучением алгоритмы, такие как кластеризация, для реализации процесса неконтролируемого обучения..

На сегодня это все, и продолжайте обновлять конспекты в будущем~