Глубина 丨 Создайте рекомендательную систему с нуля

искусственный интеллект
Глубина 丨 Создайте рекомендательную систему с нуля

Обзор и конструкция системы маркировки

1 Обзор

С быстрым развитием информационных технологий и увеличением содержания информации проблема «информационной перегрузки» становилась все более серьезной, что влекло за собой все более тяжелую информационную нагрузку. Рекомендательные системы могут эффективно решить эту проблему, поэтому они пользуются уважением и широко используются.
Проще говоря:
Система рекомендаций предназначена для того, чтобы помочь пользователям находить элементы, которые могут представлять для них интерес, из большого объема данных, таких как веб-страницы, услуги, товары, люди и т. д., путем анализа бинарных отношений между пользователями и элементами и создания персонализированных рекомендаций. для удовлетворения индивидуальных потребностей.
В настоящее время рекомендательные системы для электронной коммерции на рынке включают Amazon, Alibaba, Douban, Dangdang и т. д., а информационно-поисковые системы включают Google, Yahoo, Baidu и т. д. и широко используются в других периферийных областях, таких как мобильные устройства. приложения, электронный туризм, интернет-реклама и т.д. В этой статье описывается только содержание веб-страницы и построение системы проекта для специальных новостей.

Исследователи полагают, что, согласно формуле отбора информации Шрамма, возможность (вероятность) внимания людей или выбора средств массовой информации пропорциональна степени вознаграждения (ценности), которую они могут предоставить, и обратно пропорциональна степени затрат (усилий), которые люди получить его. . Это:
Люди готовы получать самую ценную новостную информацию с наименьшими затратами.
Следовательно, с точки зрения познавательной рецепции СМИ должны уменьшать «усилия» аудитории, повышать ценность информации или СМИ, повышать узнаваемость бренда, формировать эффект масштаба, иметь уникальные вкусы и характеристики, ставить себя в глазами аудитории.«Читаемый» образ трансформируется в «обязательный к прочтению», благодаря чему у пользователей формируется стойкое чувство доверия и зависимости от медиапродуктов, формируется устойчивый и неповторимый стиль в сердцах аудитории.

На следующем рисунке представлена ​​базовая структура рекомендательной системы в целом (картинка взята из сети):

От начального сбора данных до конечного этапа отображения обработка и генерация данных также выполняются в середине для обработки большинства извлеченных функций.Генерация обычно относится к использованию функций для выбора соответствующего алгоритма для расчета соответствия. Весь жизненный цикл данных выглядит следующим образом:

Другими словами, от получения данных до конечного результата обработки, весь процесс прохождения всего процесса, в конечном итоге предоставляющий нам соответствующую эффективную информацию и принимающий соответствующие эффективные меры, является окончательным проявлением ценности данных.
Перед официальным стартом требования к сбору данных также очень высоки.Если данные будут неточными или необъективными, велика вероятность того, что все последующие усилия будут напрасными.В следующей таблице показаны распространенные проблемы при сборе данных:

Система рекомендаций для новостного контента позволяет людям наиболее гладко получать тот контент, который они хотят видеть, тем самым формируя ядро ​​конкурентоспособности. Обычная рекомендательная система рекомендательной системы разделена на две строки: первая строка — это пользователь, а вторая строка — это элемент, и соответствующее приблизительное значение между ними рассчитывается для завершения рекомендации. Должна быть среда для вычисления приблизительного значения.Этой средой является система тегов.Поэтому перед построением всей системы самое главное построить систему тегов,за ней следует пользовательская система,то есть пользовательская модель. Единственный способ, которым мы можем воспринимать пользователей, — это через действия пользователя, другими словами, поведение пользователя, поэтому тонкие изменения в поведении пользователя требуют, чтобы наша пользовательская система была очень чувствительной, и, наконец, система проектов, которая конкретно относится к новостному контенту.

Ниже мы попытаемся описать соответствующий процесс и детали того, как построить систему рекомендаций на уровне продукта.Общий процесс построения выглядит следующим образом:

В целом это относительно сложно, и детали будут объяснены одна за другой ниже.

2 Система этикеток

2.1 Процесс строительства

Чтобы сделать систему меток, мы должны сначала определить структуру системы.Условно принято говорить, что метки строятся с контентом или пользователями (но я думаю, что это неполное, и более эффективную и полезную информацию невозможно получить в будущем. вот почему я думаю, что система маркировки должна быть выделена).
После определения структуры системы мы должны выбрать соответствующий выбор алгоритма и существенно выбрать объем и место обучения, чтобы учиться у машины, и процесс построения всей системы меток завершен. По мере заполнения постоянного контента должна быть соответствующая метка, чтобы постоянно добавлять его. Это длительный процесс, и его тоже нужно вовремя корректировать алгоритмом коррекции во времени, корректировка в режиме реального времени, это не сутки.

2.2 Двумерная структура

Обычные сетевые теги добавляются вместе с пользователями и контентом, но есть ограничения, то есть системе тегов сложно или невозможно тщательно отслеживать другой связанный контент. Фактически
Основная ценность системы меток выражается в соответствующем установлении отношений между информацией и людьми, а между людьми
. Поэтому я думаю: как мы можем сделать самое глубокое отслеживание самых глубоких ассоциаций? Традиционным решением является установка системы меток отдельно и мозаичное размещение меток в системе, т. е. двухмерность. С помощью машинного обучения можно установить базовую контактную сеть тегов, а затем прикрепить их к пользователям и контенту. Преимущество отображения верхнего и нижнего уровней без трехмерной структуры состоит в том, что можно избежать последствий одномерности. Другими словами, если есть иерархия, она неизбежно станет первой и второй.

Проще говоря: все теги, связанные с тегом, отображаются; окружающие теги будут иметь теги, а затем отображаться; это станет бесконечной трехмерной структурированной сетью тегов, которая является базой значений. Вывод конечного значения также следует всесторонне рассматривать в сочетании с другими соответствующими видами поведения, операциями, физическими атрибутами пользователей, носителями контента и оценкой эффекта.

2.3 Машинное обучение

Обычный процесс тренировок машины: сначала определите метод → Учебный набор → Выбор функций → Обучение → Классификатор; Классификация: Новый образец → Выбор функций → Классификация → Суждение.

Итак, в самом начале нам предстоит определиться с методом машинного обучения. Существует множество методов, которые необходимо определять в зависимости от конкретной ситуации. Ниже перечислены только общие классические методы машинного обучения, функции, плюсы и минусы и т. д. с точки зрения продукта. Для инженеров данных, чтобы выбрать, сравнить и помочь сделать лучший выбор для справки.

Методы сначала делятся на две большие категории:Контролируемое и неконтролируемое обучение
. Обучение под наблюдением также известно как классификация или индуктивное обучение. Применяется практически во всех областях, включая обработку контента. Общие алгоритмы включают дерево решений, байесовскую модель, KNN, SVM и т. д.

В отличие от этого метода обучения без учителя, в котором все атрибуты класса неизвестны, и алгоритм должен автоматически генерировать атрибуты класса в соответствии с характеристиками набора данных. Набор данных, используемый для обучения в алгоритме, называется
Набор обучающих данных: после использования алгоритма обучения для изучения модели из набора обучающих данных мы используем набор тестовых данных для оценки точности модели.
. Распространенными являются кластеризация и матрица признаков. В следующей таблице показана классификация обычных алгоритмов рекомендаций. Всего существует три категории: алгоритмы классификации, правила ассоциации и кластеризация. Вы можете выбрать различные алгоритмы для настройки в соответствии с различными сценариями. Плюсы и минусы наиболее часто используемых алгоритмов и принципы алгоритмов, описанные человеческим языком, перечислены в конце таблицы для справки коллегами по продукту.

2.3.1 Наивный Байес

Для того, чтобы данный элемент был классифицирован, узнайте вероятность появления каждой категории при условии, что элемент появляется; в зависимости от того, какая из них больше, рассмотрите, к какой категории принадлежит классифицируемый элемент. Очень легко понять, простая проблема вероятности.

Достоинства: Алгоритм очень стабилен, нет требований к параметрам данных, приложение относительно простое.

Недостатки: когда количество атрибутов велико или корреляция между атрибутами велика, эффективность не идеальна, и важен предыдущий формат данных, и необходимо знать априорную вероятность, и существует определенная частота ошибок. Однако в сочетании с алгоритмом кластеризации проблема количества атрибутов может быть в определенной степени решена.

Сценарии использования: Обычно используется в сценариях классификации спама.

2.3.2 Дерево решений

Распределяющая шляпа в «Гарри Поттере» использует очень типичную модель дерева решений: шляпа застегивается на голове ученика, считываются характерные черты ученика, а затем они классифицируются в определенную категорию. Итак, вы видите, что характеристики Гарри Поттера в начале были всеми характеристиками Гриффиндора.Когда Распределяющая шляпа прочитала данные, она обнаружила, что у этого человека было два типа отличительных характеристик, поэтому он колебался, и, наконец, сам Поттер предложил свои требования, что обосновывает ручное вмешательство при нанесении модели.

Преимущества: дерево решений относительно простое для понимания, нечувствительно к формату данных и умнее; надежность модели легко измерить с помощью статических тестов, хорошо подходит для обработки большого количества источников данных за короткое время, хорошая совместимость с количеством атрибутов и хорошая масштабируемость.

Недостатки: для данных с непостоянными размерами выборки результаты оказываются смещенными, трудно работать с отсутствующими данными, происходит переобучение, и легко игнорировать корреляцию между атрибутами в наборе данных.

Сценарий использования: его можно комбинировать с алгоритмом случайного леса, чтобы уменьшить соответствующее явление переобучения. Обычно используется в сценариях анализа поведения пользователей.

2.3.3 KNN

Грубо говоря, мы ищем соседей, но зачем мы ищем соседей? Как выбрать соседей и сколько соседей выбрать? Как найти нужных нам соседей и как использовать соседей для решения задачи классификации — вот несколько основных проблем, которые должен решить алгоритм KNN.

Почему мы ищем соседей? Как говорится в старой поговорке: люди собираются по похожему, вещи делятся на группы. Чтобы узнать, каков человек, сходите к его друзьям. Если мы хотим судить о категории точки выборки, просто посмотрите на категорию точки выборки, которая ей подобна.

Преимущества: алгоритм прост и эффективен, стоимость переобучения низкая, и он больше подходит для выборок с областями плохого класса или большим количеством перекрывающихся областей. То же самое относится и к большим размерам выборки.

Недостаток: при небольшом размере выборки возникают ошибки. Более того, алгоритм представляет собой ленивый метод обучения, который не является активным, баллы по категориям не стандартизированы, а интерпретируемость вывода невысока. Когда размер выборки несбалансирован, возможно, что при вводе новой выборки выборки класса большой емкости в K соседях выборки составляют большинство, и объем вычислений велик. Весовой метод можно использовать для улучшения задачи с маленьким соседом с небольшим расстоянием от выборки для улучшения задачи.Для большого объема вычислений известные точки выборки можно отсечь заранее, а выборки, мало влияющие по классификации можно удалить для оптимизации.

Сценарий использования: обычно используется в сценариях прогнозирования цен.

2.3.4 SVM

Прежде чем говорить об этом алгоритме, мы должны сначала сопоставить картинку:

Что означает эта картинка? Все равно. Но какое из двух подразделений лучше? Интуитивно правая сторона явно лучше. То есть чем больше разрыв сегментации, тем лучше, и чем более открыты точки двух категорий, тем лучше. Точно так же, как когда мы обычно судим, является ли человек мужчиной или женщиной, здесь трудно ошибиться, это вызвано большим разрывом между двумя категориями мужчин и женщин, что позволяет нам точнее классифицировать. С практической точки зрения это работает очень хорошо с низким уровнем ошибок.

Преимущества: Алгоритм подходит для небольших выборок, может улучшить производительность обобщения и может решать многомерные задачи. И он может решать как линейные, так и нелинейные задачи, избегая проблемы выбора структуры нейронной сети и точек локального минимума.

Недостатки: он чувствителен к отсутствующим данным, нет общего решения нелинейных задач, необходимо выбрать функцию ядра для работы, а алгоритм используется и чрезвычайно сложен.

Сценарии использования: Обычно используется в сценариях классификации пользователей сайтов социальных сетей.

2.3.5 Ad boosting

Честно говоря, я не могу объяснить этот алгоритм, я им особо не пользовался, попробую рассказать о нем исходя из собственного понимания данных. Основная идея этого алгоритма заключается в интеграции нескольких слабых классификаторов в один мощный классификатор. В это время появился ансамблевый классификатор. По человеческим меркам трое сапожников превзошли Чжугэ Ляна, верно? Правильная скорость идентификации набора понятий условных признаков немного лучше, чем случайное угадывание, но этого недостаточно.Это слабый классификатор; эффекты нескольких слабых классификаторов накладываются, чтобы стать сильным классификатором, и скорость распознавания будет очень высокий. .

Преимущества: Алгоритм обладает высокой точностью и может быть использован для построения подклассификаторов любым способом; результаты легко понять при использовании простых классификаторов, а построение слабых классификаторов чрезвычайно просто, и нет необходимости выполнять функцию скрининг и беспокоиться о переоснащении.

Недостатки: Чувствителен к выбросам.

Сценарии использования: распространены в сценариях обнаружения лиц и распознавания целей.

2.3.6 K-means

Дайте вам 10 000 человек, разделенных на четыре группы, вы должны быть в состоянии объяснить выдающиеся характеристики каждой группы людей, если есть две группы людей с очень похожими характеристиками, то вам нужно перегруппироваться; Сгруппированы. Преимущество в том, что при большом размере выборки ее можно быстро кластеризовать, но необходимо обращать внимание на интерпретируемость каждой группы после кластеризации.

Преимущества: Этот алгоритм является классическим алгоритмом, простым и быстрым, масштабируемым и эффективным для обработки больших наборов данных. И эффект кластеризации хорош, когда плотность кластера высокая, сферическая или сгустковая, и он явно отличается от других кластеров.

Недостатки: но его можно использовать только тогда, когда определено среднее значение кластера, и оно не применимо к данным категорийных атрибутов и требует, чтобы пользователь заранее указал количество кластеров, которые должны быть сгенерированы. Чувствителен к начальным значениям, не подходит для обнаружения скоплений невыпуклой формы или скоплений с большими различиями в размерах. Чувствителен к шуму и изолированным данным, небольшое количество таких данных может напрямую повлиять на среднее значение.

Сценарии использования: Обычно используется в сценариях CRM для проверки целевых клиентов.

2.3.7 Нейронные сети

Этот алгоритм ничего не хочет объяснять, поэтому я просто хочу поставить картинку, и чувствую, что жалко ее не поставить.

С точки зрения продукта приведенная выше сводка должна иметь лишь приблизительное представление.Как правило, она определяется на основе данных о продукте и сценариев применения.

Вообще говоря, неконтролируемое обучение, такое как кластеризация, должно быть выбрано в период холодного старта, после обогащения данных оно должно быть преобразовано в контролируемое обучение, и может быть выбран оптимальный алгоритм, однако конкретные проблемы все еще нуждаются в анализе. в деталях. Для выбора и реализации необходимо сотрудничать с техническим и алгоритмическим персоналом.Подробные алгоритмы, принципы, формулы и т. д. можно просмотреть в Приложении 1 ниже для справки.

2.4 Место учебы

Здесь я предлагаю машинное обучение на продуктах энциклопедии.Самая большая энциклопедия в Китае — энциклопедия Baidu, а в мире естественно есть Википедия.

Я проверил некоторые связанные методы и обнаружил, что уже есть соответствующие случаи использования тегов машинного обучения из энциклопедии Baidu, и стоимость относительно невелика Конкретные методы также перечислены в Приложении 2 в следующем тексте.

В этой статье рассматриваются проекты, связанные с тегами Weibo, которые не относятся к этой статье, но общую идею можно использовать для справки. Общий процесс заключается в том, чтобы сначала получить соответствующее содержимое тега под страницей, обратить внимание на особые обстоятельства, и будут неоднозначные страницы; после того, как теги будут захвачены и сохранены, алгоритм вычисляет корреляцию и весовые коэффициенты между ними, и затем выводится проверка. Общий процесс очень прост и быстр и может очень быстро дополнять соответствующие данные на ранней стадии, но обратите внимание на проблему объема данных, который может привести к бесконечности, поэтому какие основные области собирать и сколько собирать, мы нужно определить их в начале и вовремя наступить на них.тормоз.

2.5 Выходной дисплей

Отображение здесь больше относится к соответствующей фоновой странице, которая должна соответствовать нескольким условиям: самое основное из которых должно соответствовать требованиям визуализации.После нажатия на метку соответствующая связанная метка может формировать связанный дисплей; вы можете выбрать отображение двух или три уровня. , чтобы увидеть отношения ясно и интуитивно. Далее, после нажатия, также будут отображаться детали в каждой вкладке. Например, исторический тип метки, ситуация с носителем, ситуация открытия и группа пользователей аудитории, так что это также результат комбинации соответствующих меток, которые должны полагаться на пользовательскую систему.

В сочетании с основными размерами данных, такими как количество тегов, добавленных вчера, какая аудитория имеет тенденцию к типу статьи, все они относятся к категории базовых данных, которые могут обеспечить мониторинг в реальном времени, позиционирование и оповещение.

2.6 Резюме

В этом разделе в целом изложен общий процесс построения системы тегов, а также отображение и анализ плюсов и минусов связанных классических алгоритмов, а также представлены идеи для механизмов обучения тегов. Далее будет осуществляться построение системы пользовательской модели.Подробности см. в средней части, которая будет опубликована завтра.

Система пользователей, система проектов и система рекомендаций

3 Пользовательская система

3.1 Процесс строительства

Прежде всего, мы должны определить мотивацию пользователя, потому что исходя из основной мотивации пользователя, мы можем сделать соответствующую обработку рекомендаций.

Итак, как мы должны фиксировать мотивацию пользователей? Есть только один способ — через поведение пользователя. Следовательно, мы должны отдать приоритет созданию системы поведения пользователей и проанализировать мотивацию пользователя в соответствии с поведением пользователя; будь то активная мотивация или пассивная мотивация, затем извлечь эти мотивационные характеристики, объединить физические атрибуты пользователей, а затем выполнить постобработку. . Затем отфильтруйте значения функций, назначьте веса и объедините коэффициент затухания для окончательного результата. Окончательные результаты вывода должны быть разделены на основные атрибуты, интересы пользователей, отношения пользователей и поведение пользователей в сочетании со всем всесторонним анализом мотивации пользователей, рекомендовать соответствующий контент в нужное время, чтобы сформировать конечную цель оптимизации рекомендаций и позволить пользователям получить самая низкая стоимость информация.

Поэтому в анализе, по анализу мотивации пользователей, сделайте вывод, на какие моменты и вещи мы должны обратить внимание.

3.2 Классическая теория мотивации

Прежде чем строить поведенческую систему, вы должны ввести взаимосвязь между мотивацией и поведением. Это должно было ввести классическую теорию, которая всегда была сообществом науки о поведении: теория «Используй и встречай», теория, впервые предложенная в 1974 году Э. Кацем в его работе «Личная коммуникация масс».

Теория использования и удовлетворения рассматривается с точки зрения аудитории и исследует психологические и поведенческие эффекты массовой коммуникации на людей путем анализа мотивации аудитории к использованию средств массовой информации и получению удовлетворения спроса. Но оно отличается от традиционного представления о том, как сообщение воздействует на аудиторию: оно подчеркивает роль аудитории и подчеркивает статус аудитории. Эта теория утверждает, что аудитория ограничивает процесс медиакоммуникации за счет активного использования медиа, и указывает, что использование медиа полностью основано на индивидуальных потребностях и желаниях.

Э. Кац резюмировал поведение при контакте со СМИ как причинно-следственный процесс «социальные факторы + психологические факторы → ожидания СМИ → контакт со СМИ → удовлетворение спроса» и выдвинул базовую модель процесса «использование и удовлетворение». После дополнения и развития последующих поколений процесс «использования и удовлетворения» выдвигается комплексно:

Целью контактов людей и использования средств массовой информации является удовлетворение собственных потребностей, связанных с социальными факторами и личностно-психологическими факторами.
Есть два условия для людей, чтобы контактировать и использовать средства массовой информации: возможность контакта со средствами массовой информации впечатление СМИ является оценка аудиторией средства массовой информации для удовлетворения своих потребностей Это впечатление или оценка средств массовой информации формируется на основе прошлого опыта использования средств массовой информации средства массовой информации.
Аудитория выбирает определенный носитель и контент и приступает к работе.
Есть два результата воздействия на использование: один - это потребность, которая удовлетворена, а другой - неудовлетворенная потребность.
Независимо от того, повлияет ли это на будущие медиа, чтобы использовать поведение использования, и люди пересматривают существующие медиа-впечатления на основе результатов результатов и в той или иной степени, чтобы изменить ожидания от медиа.
Резюмируются элементы теории использования и удовлетворения, в том числе:

Аудитория активна, а использование средств массовой информации целенаправленно.
В связи между удовлетворением потребности аудитории и выбором средств массовой информации инициатива принадлежит аудитории.
СМИ конкурируют друг с другом за удовлетворение потребностей аудитории.
Таким образом, в конечном итоге он отображается в сети.Нетрудно проанализировать, что пользователи обычно используют сеть для: (1) межличностного общения, (2) чтобы скоротать время, (3) для поиска информации, (4) удобно и быстро; (5) обмен информацией; (6) ) самовыражение; (7) развлечения и отдых.

Теория рационального поведения социальной психологии и техническая модель принятия, основанная на этой теоретической базе (Технология ПРИНЯТИЯ
Модель, или сокращенно ТАМ, была первой, кто исследовал, какие факторы влияют на сознательное поведение людей. В 1989 году Дэвис выдвинул модель принятия технологий для поведения принятия и использования технологий на основе теории рационального поведения:

ТАМ считает, что поведение при использовании системы определяется поведенческим намерением, а поведенческое намерение совместно определяется желаемым отношением и воспринимаемой полезностью Желаемое отношение определяется воспринимаемой полезностью и воспринимаемой простотой использования Оно совместно определяется воспринимаемой простотой использования и внешние переменные, а воспринимаемая простота использования определяется внешними переменными.

Внешние переменные включают характеристики дизайна системы, характеристики пользователя (включая формы восприятия и другие характеристики личности) и т. д., которые представляют собой внутренние убеждения, отношения, намерения и различия между разными людьми, ограничения окружающей среды и контролируемые факторы вмешательства, которые существуют в модели принятия технологии. установить связь между ними.

3.3 Анализ мотивации Тутиао

После теоретического введения мы также должны проанализировать текущую самую мощную платформу рекомендаций по контенту с теоретической точки зрения, то есть сегодняшние заголовки, которые необходимо упомянуть. Затем из ограниченного исследования и обсуждения мы можем получить соответствующую мотивацию пользователей использовать продукты Toutiao из успешных продуктов, чтобы направлять наше будущее направление продукта.

Методы в исследовательских работах, относящиеся к заголовкам, также указаны в Приложении 3 для ознакомления, а выводы будут непосредственно выбраны ниже для справки.

Основная причина популярности Toutiao сегодня заключается в том, чтобы уловить психологию аудитории для персонализированных потребностей. Результаты исследования потребностей пользователей показывают, что «персональные рекомендации» (60,79%), «быстрая скорость обновления» (60%) и «больше push-контента (45,26%) являются тремя самыми сильными мотивами для пользователей.

Персонализация в основном отражается в трех аспектах:

  1. Настройка канала: пользователи могут подписываться на интересующие их каналы («Today's Toutiao» предоставляет 48 каналов, таких как социальные, развлекательные, политические, горячие точки и т. д.), и в то же время предоставлять информацию о местоположении, чтобы пользоваться локализованными службами новостей (также информацию о городских мероприятиях) и «Сегодняшний Toutiao» «Он также открыл платформу для самомедиа, такую ​​​​как WeChat, и пользователи могут следить за своими заинтересованными учетными записями самомедиа.

  2. Персональные рекомендации: Если «Сегодняшняя Toutiao» отмечена синим словом «рекомендуется» в крайнем левом углу заголовка новости, это означает, что контент специально рекомендован в соответствии с интересами пользователя. Распространение информации «Today's Toutiao» полностью основано на интеллектуальных рекомендациях. Действия пользователей по просмотру, сохранению, пересылке и комментированию каждой новости будут записываться, а также привычки чтения пользователей, время чтения и позиция чтения. быть проанализирована. Модель". Благодаря привязке учетных записей социальных сетей и интеллектуальному анализу больших данных последующие действия также будут основываться на отзывах пользователей об использовании продукта (пользовательские «Нравится», «На шаг вперед», «Ретвит», «Избранное» и другие действия). на "Today's Toutiao"). С развитием алгоритма, чем точнее пользовательский анализ, тем точнее рекомендуемый контент.

  3. Индивидуальный опыт: Сервисные функции, такие как «чтение в автономном режиме», «коллекция синхронизации», «моя тема», «режим сводки», «режим чтения» и «настройки шрифта», могут быть настроены в соответствии с вашими потребностями, отражая удобство использования.
    Методы обновления в основном делятся на следующие три типа:

  4. автоматическое обновление: обновления вручную и принудительные обновления. Автоматические обновления обычно занимают от нескольких минут до десятков минут;

  5. Ручное обновлениеНастройка предназначена для удовлетворения потребностей пользователя в информации в режиме реального времени, и каждое обновление будет содержать 8-12 фрагментов информации;

  6. push-уведомлениеЭто для отправки информации на уведомление мобильного телефона пользователя, начиная примерно с 6-10 в день, в основном для социальных новостей.
    Кроме того, чтобы удовлетворить потребности фрагментированного чтения, Toutiao в основном фокусируется на новостях и изображениях с точки зрения типов новостей и редко публикует новостные материалы в традиционном смысле, такие как статьи, информационные бюллетени и подробные отчеты, а также количество слов контролируется на уровне около 1000 слов.

Согласно «Сегодняшнему годовому отчету Toutiao», есть два показателя для измерения читательских привычек: первый — это среднее время пребывания на сайте, а второй — показатель отказов. Показатель отказов статей из 1000 слов составляет 22,1%, а среднее время пребывания — 48,3 секунды. Со статьей из 4000 слов все наоборот: показатель отказов составляет 65,8%. Видно, что статьи в пределах 1000 слов будут иметь более высокий коэффициент распространения.

В то же время Toutiao также добавила видеоновости, но не сделала отдельную функцию, как клиент Sohu или Sina, а встроила ее в канал. Продолжительность видеоконтента меньше 1 минуты, с целью снижения расхода трафика, в основном легкого и веселого контента.

Поэтому, основываясь на выводах исследования, нетрудно увидеть, что самой большой мотивацией пользователей Toutiao по-прежнему являются точные персонализированные рекомендации, то есть точные рекомендации по-прежнему должны быть основным источником для привлечения пользователей.

3.4 Модель анализа

Как видно из приведенного выше рисунка, мы должны сделать вывод о факторах мотивации пользователя на основе поведения зрелого пользователя, а затем сделать вывод о психологических факторах. Фактически, пользователь фактически открывает приложение после того, как был мотивирован, сначала анализирует и рекомендует на основе ограниченных данных, а затем отодвигает мотивацию пользователя после соответствующего поведения и корректирует рекомендуемый контент в соответствии с мотивацией пользователя для достижения основной цели.

Какая польза от этого? Все продукты Toutiao настраиваются на основе поведения пользователя, но поведение пользователя на самом деле неточное. Содержание хорошего настроения и содержания плохого вида, а также детали рабочего процесса, скорее всего, будут разными; если вы будете фиксировать только поведение, оно будет лишь неточно отклоняться.
Следовательно, после того, как мы зафиксируем поведение пользователя при любых обстоятельствах, мы можем отодвинуть мотивацию пользователя, и еще больше отодвинуть психологические факторы пользователя, и завершить идеальную рекомендацию, основанную на сочетании предпочтений и поведения в сердце.

Предыдущая теория также показывает, что социальные факторы и психологические факторы определяют мотивацию.Поэтому, когда установлена ​​модель поведенческих привычек и количественно определены социальные факторы, только психологические факторы являются переменными.
, тогда мы также можем проанализировать различные психологические факторы и изменить рекомендуемый контент на этот раз в соответствии с различными психологическими факторами, я думаю, что это должно значительно улучшить коэффициент конверсии, и это может быть момент, которого нет у текущих продуктов заголовка.

В сочетании с соответствующими атрибутами обычных портретов пользователей мы можем увидеть следующий рисунок (с добавлением покупки):

Следовательно, их можно объединить в два основных контекста: один — реальность, другой — сердце, и мы должны угадать сердце, основываясь на фактическом поведении. Комбинация двух рисунков ясно объяснит пользовательский контекст и взаимосвязь между ними:

Поведение пользователя при просмотре отражает интерес пользователя, и отношения между ними имеют следующие характеристики:

  1. Предпочтения пользователей разного возраста, пола и занятий отражаются в поведении пользователя при просмотре продуктов;
  2. Предпочтение пользователя имеет динамическую переносимость, которая отражается в степени интереса пользователя, то есть, если предпочтение пользователя передается, исходное значение степени интереса будет уменьшаться;
  3. Пользователи будут нажимать и просматривать интересующие их продукты с высокой частотой Предполагается, что чем дольше пользователь просматривает определенный вид продукта и чем выше частота, тем больше покупатель заинтересован в этом виде продукта, что отражает предпочтительный интерес пользователя. Значение степени также будет увеличиваться соответственно.
    Итак, в конце мы определим количественные числа, которые необходимо собрать, чтобы представить часть поведения, и работать в обратном направлении, чтобы достичь конечной цели.

3.5 Поведенческая коллекция

В целом мотивацию делят на медийную, социальную и потребность в опыте, а возможными причинами их являются:

  1. Требования к носителям обычно включают: высокую скорость обновления и больше push-контента;

  2. Социальные потребности обычно включают: сильную социальность и сильное взаимодействие;

  3. Требования к опыту обычно включают: точные персонализированные рекомендации, быстрый и всесторонний интеллектуальный поиск, удобное управление и автономную загрузку.
    Согласно двум формам, активное поведение и пассивное поведение классифицируются Активное поведение — это активная и естественная деятельность пользователя, а пассивное поведение — это приложение, которое искусственно увеличивает сбор перехвата, вопросов, анкет и т. д., поэтому сортируя соответствующие действия, которые нам нужно собрать через разные действия должно быть, активное поведение:

  4. Медиа: PUSH-сообщение, время открытия;

  5. Социальные: PUSH-уведомление, поделиться, сохранить, ответить, добавить в избранное, сообщить, уровень;

  6. Опыт: открытый тип контента, носитель контента, длина контента, историческое поведение при поиске, исторические настройки открытия, интервал времени клика, скользящее положение контента, настройки чтения, кэш загрузки;

  7. Демографические атрибуты: возраст, пол, регион, доход, подпись и т. Д.;

  8. Периферийная сцена: географическое положение, сетевое окружение, конец, уровень сигнала, динамик наушников, высота и т. д.;

  9. Пассивное поведение: добавление перехвата, вопрос об интересующей области, обратная связь, небольшой вопрос, анкета, ×, удаление и т. д.
    Благодаря очень зрелому рекламному полю мы можем ссылаться на некоторую важную информацию, которая по-прежнему является важной для нас. Например, отслеживание источников пользователей и междоменное отслеживание.Так называемое междоменное отслеживание относится к использованию, например, если вы переходите к Sina на Baidu, вы также можете отслеживать его. Используемые средства — это, как правило, файлы cookie и кэши.Первый обычно имеет свой собственный ключ и имеет мало общего с пользователями.

3.6 Постобработка

Обычно постобработка состоит из трех этапов: фильтрация, взвешивание и коэффициенты затухания.
. Под фильтрацией обычно понимается фильтрация и извлечение недопустимых функций или данных о помехах. Вес обычно корректируется после всестороннего рассмотрения различных поведенческих предпочтений и других факторов. При затухании обычно учитывается, что интерес пользователя со временем будет снижаться. Релевантными переменными являются клики пользователя. частота и в зависимости от времени просмотра коэффициент забывания корректируется в соответствии с соответствующими переменными. Другой момент заключается в использовании алгоритма градиентного спуска с естественной нормой для корректировки точности. С технической точки зрения они относительно зрелые, и есть зрелые алгоритмы, поэтому я не буду вдаваться в подробности.

3.7 Выходные данные модели

Так называемый выход на самом деле является релевантным проявлением, которое можно смоделировать в соответствии с приведенным выше анализом. Его роль заключается в том, чтобы помочь нам найти проблемы, локализовать и решить их. Мы должны учитывать такие вопросы, как своевременность, удобство и точность.

С точки зрения эффекта — это данные, а с точки зрения функции — метка. такПредставление данных требует визуализации, гибкости и точности, а размер минимального временного интервала не может быть слишком большим.
Таким образом, для достижения оптимального выбора метода отображения выбираются распространенные форматы, такие как линейные диаграммы, воронкообразные диаграммы, круговые диаграммы и гистограммы, в сочетании с различными региональными местоположениями и целями. Минимальный временной интервал может иметь отчет в реальном времени или отчет за половину точки.Отчет будет агрегироваться и выводиться каждый день, и будет установлен соответствующий порог.После колебания порога будет обработан соответствующий сигнал тревоги.

ТакПользовательские теги на самом деле являются тегами поведения, которые рассчитываются и подгоняются в соответствии с поведением.
В соответствии с конструкцией меток в системе меток все метки в системе меток представляют собой двумерные плитки, но конкретные метки, соответствующие пользовательской системе, будут разделены на уровни. На самом деле нетрудно найти взаимосвязь между включением и включением.Вся система меток предоставляет «материалы» для системы меток пользователя, а система пользователя используется напрямую, поэтому, поскольку она является пользователем, она должна иметь подробные уровни и расчет весов, это очень важно, что связано с нашей конечной целью.

Мы хотим знать, каковы мотивы пользователя, отмеченного этим ярлыком. Должна быть какая-то слабая корреляция между разным контентом. Обнаружение слабой корреляции поддерживается двумерной системой, стоящей за ярлыком контента. Это делается с помощью меток на уровне пользователя, и, наконец, мы можем давать соответствующие предположения и давать неожиданные рекомендации для достижения цели, выходящей за рамки того, что думают пользователи. С помощью слабых ассоциаций мы также можем выполнить взаимную рекомендацию между пользователями или кластеризацию пользователей и т. д., чтобы установить сеть отношений между пользователями и проложить путь для создания социальной атмосферы.

Выше приведены теги, полученные через поведение пользователя, а некоторые из них являются физическими атрибутами пользователя, то есть такими атрибутами, как пол, регион, клиент, сетевое окружение и т. д., постарайтесь собрать как можно больше, и собирайте их каждый раз. день, а измерение записи основано на времени входа в систему. Окончательный поведенческий тег объединяется с физическим тегом и всесторонне отображается в системе тегов контента и пользовательских тегов. После этого необходимо проанализировать личность пользователя по алгоритму по системе меток пользователя.Личность поможет нам не провоцировать пользователей в будущих персонализированных продуктах, чтобы каждый пользователь остался доволен.

Пока что пользовательские метки, которые должны быть выведены, на самом деле представляют собой четыре категории.атрибуты, интересы, отношения, поведение
, атрибуты включают в себя физические атрибуты и атрибуты персонажей. Вышеуказанные четыре измерения помогают нам всесторонне анализировать пользователей. Конечным результатом должно быть наиболее вероятное предположение о мотивации пользователя, предположение, какой тип контента пользователь хочет видеть на этот раз. , в сочетании с системой содержания, сделать рекомендацию.

3.8 Резюме

В этом разделе описываются идеи построения всей пользовательской системы, включая предыдущие классические теоретические ссылки и модели анализа зданий, и, наконец, пользовательский анализ и формы отображения вывода.Далее будут описаны идеи построения системы проекта.

4 проектная система

Система проектов делится на множество типов, включая товары, пользователей, контент, рекламу и т. д. В этой статье контент используется только в качестве идеи построения для описания.

4.1 Особенности контента

Контент-векторы обычно имеют проблему большой размерности.Даже после удаления стоп-слов, таких как низкочастотные слова и слова с высокой отчетностью, все еще остаются десятки тысяч пространственных признаков. Для повышения эффективности и точности машинного обучения необходимо уменьшить размерность текстовых векторов. Выбор функций — эффективный метод уменьшения размерности контента.

Конкретный метод заключается в построении функции оценки для оценки всех функций в векторе функций по одной и выборе функций, оценка которых выше установленного значения. Обычно используемые функции оценки: частота документов, функция частоты слов, TIFDF, ожидаемое перекрестное извлечение, CHI, прирост информации, взаимная информация и т. Д. Хотя эксперименты показывают, что методы, основанные на информационной энтропии, такие как IG и CHI, могут достигать лучших результатов выбора признаков, но вычислительные затраты высоки, системные накладные расходы велики, и это пустая трата времени и ресурсов. Поэтому в практических приложениях очень желателен метод TIFDF с меньшей вычислительной сложностью и лучшим эффектом оценки.

А содержанием является не только текст, но и картинки, видео, голоса и т. д. Для этих трех, поскольку размеры совершенно разные, средства и способы использования тоже совершенно разные.

4.2 Характеристики изображения

Средство двумерной плоской пыли по-прежнему является этикеткой, которая обычно называется этикеткой с изображением; метод этикетки может просто разделить метод, основанный на модели, и метод, основанный на экземплярах.

Метод, основанный на обучении моделей, имеет высокую производительность маркировки, но высокая вычислительная сложность обучения моделей, что не имеет практического значения. Метод, основанный на поиске экземпляров, рассматривает проблему маркировки изображений как проблему поиска изображений и представляет собой метод модели, управляемой данными. Поэтому в основном выбирается последнее, среди которых алгоритмы тоже появляются один за другим, повышение точности и фильтрация спам-лейблов - общие цели, и выбирать нужно лучшее, методов и технологий тоже много, так что не буду в детали.

4.3 Функции видео

Видео является трехмерным носителем, что добавляет временной характер, к обычным методам относятся: уменьшение размерности видео в двухмерную плоскость поодиночке, то есть деление его на равные части, и преобразование в аннотацию изображения. Однако стоимость этого метода огромна, и применить его в большом объеме данных нереально. Более новый метод — это видеозаграждение.Заграждение — это текстовое содержимое, редактируемое пользователем непосредственно на видео, похожее на субтитры.Содержимое заграждения извлекается в каждый момент, а видео напрямую превращается в метку, а Ненужная этикетка может быть удалена в зависимости от веса.Просто и эффективно.

4.4 Аудио характеристики

В обычном аудио обычно преобладают ток-шоу и музыка, а информационные теги, предоставляемые заголовком, будут иметь очень большой вес, но он все же ограничен. Так для ток-шоу выведена технология распознавания речи: преобразование речи в текстовую информацию для маркировки. Для музыки мы можем только дополнить ее из других средств. Например, распознавание формы волны, обычная музыка содержит такие атрибуты, как жанр и стиль, а использование технологии распознавания формы звуковой волны может успешно получить соответствующие теги.

4.5 Функции комментариев

Хотя комментарии имеют тип текста, поскольку комментарии не могут быть слишком длинными, проблема будет неполной семантикой и серьезными данными редких проблем. Это очень похоже на Weibo, которое имеет только 140 символов, что относительно мало. Поэтому существует множество новых технологий для улучшения ситуации Weibo. Например, проблема потенциала данных может быть улучшена путем расширения характеристик текстов микроблогов и анализ некоторых явлений или характеристик в данных микроблога. использовать.

4.6 Защита от спама

Для вышеуказанных носителей неизбежно будут метки спама, будь то активные или пассивные.Так называемые активные - это генерация меток спама из-за таких проблем, как скорость распознавания или технические ограничения.Для пассивных сцен, таких как водяные знаки изображений, видеореклама или из-за вредоносных атак, вредоносных дополнений и т. д. также существует множество средств защиты от спама:

  1. Защита от спам-тегов на основе обнаружения обычно делится на два этапа: во-первых, системный администратор может вручную помечать спам-теги или соответствующих им злонамеренных пользователей, или система может автоматически идентифицировать спам-теги на основе статистического анализа и теорий, связанных с машинным обучением, или соответствующих вредоносных программ. пользователь; затем система отправляет ответ, который может помечать спам-тег или напрямую удалять спам-тег и корректировать результаты поиска или ограничивать полномочия злоумышленника.
  2. Защита на основе деградации предназначена для обеспечения защиты от спам-тегов за счет снижения позиции ресурсов, загрязненных спам-тегами, в списке результатов поиска пользователя. Используйте специальный алгоритм, чтобы ранжировать ресурсы, зараженные ярлыками спама, как можно ниже в списке результатов, чтобы пользователи не видели эти зараженные ресурсы. Для работы с этой формой будет использоваться модель на основе совпадений, модель SpamClean, модель DSpam и т. д.
  3. Основываясь на предотвращении меток спама, статистика показывает, что большая часть меток спама исходит от контролируемых хостов в ботнете или автоматизированных программ, которые могут маркировать метки.Эти хосты или программы могут генерировать большое количество меток спама в соответствии с потребностями. злоумышленника и представляет угрозу для службы тегов обычных пользователей в социальных сетях. Поэтому этот метод в основном подавляет появление меток спама, скрывая или ограничивая полномочия пользователей, генерирующих метки, то есть гарантирует, что каждая метка генерируется физическими лицами, а не ботнетами. Следует отметить, что эффект современных методов защиты от спам-меток, основанных на предотвращении, не может быть измерен количественными показателями, главным образом потому, что невозможно подсчитать количество спам-меток, которые были успешно предотвращены с помощью таких методов.
    Наконец, защитный эффект тегов можно оценить по следующим двум атрибутам: эффективность выполнения службы и доступность службы.

4.7 Выходные данные модели

Для тегов контента есть много способов сделать это, но еще одна строка тегов — тег-носитель. Так называемый носитель, чистый текст, чистое видео, чистый фотоальбом, графика, видеотекст, текст видеоизображения, есть только три основных направления. Это должно быть отображено в деталях.Например, текст разбит на тысячи слов, таких как менее 1000 слов, 1001-2000 слов и т. д., изображения в десяти картинках, а видео в одной минуте, которые могут помочь нам в оценке содержания. Кроме того, в сочетании с реальной сценой пользователя, реальная ситуация рекомендуется для обеспечения другого измерения.

Таким образом, окончательным результатом должны быть тип контента, носитель контента, сценарии классификации контента и адаптации контента, и, наконец, расчет основных моментов контента в соответствии с группой пользователей и объединение мотивации пользователя для реализации спроса и предложения того контента, пользователь хочет посмотреть это время, чтобы максимизировать коэффициент конверсии.

4.8 Резюме

В этом разделе описывается система построения тегов контента, и для разных элементов существуют разные методы сбора.Среди них также описаны связанные методы и способы защиты от спам-тегов.Визуализация по-прежнему требуется для окончательного представления.Группа пользователей В следующем разделе будет описан основной процесс и рекомендательная связь в процессе рекомендаций.

[Система рекомендаций и система оценки]

Система рекомендаций

5.1 Рекомендуемый метод

Очевидно, что рекомендательный метод и рекомендательный алгоритм являются наиболее важными и важными частями всей рекомендательной системы, которые во многом определяют эффективность рекомендательной системы. В настоящее время к основным методам рекомендаций относятся: рекомендация, основанная на содержании, рекомендация, основанная на совместной фильтрации, рекомендация, основанная на правилах ассоциации, рекомендация, основанная на полезности, рекомендация, основанная на знаниях, и рекомендация, основанная на сочетании. Подробное описание метода также приведено для справки в Приложении 4. Ниже перечислены преимущества и недостатки каждого метода:

В дополнение к сценариям следует также учитывать факторы производительности. В случае разных уровней данных разные методы и разные алгоритмы создают разное давление на производительность. Выбор должен основываться на собственном допуске компании. Можно видеть, что вышеупомянутые методы имеют разную степень преимуществ и недостатков, поэтому почти все текущие основные методы рекомендаций используют гибридный метод рекомендаций, который использует преимущества между двумя или более методами, чтобы избежать недостатков и достичь наилучшего из возможных методов. также должны быть основаны на конкретном анализе различных сценариев использования и конкретных условий продукта.

5.2 Алгоритмы рекомендаций

Это основная область всей рекомендательной системы.Большая часть работы, проделанной ранее, фактически обеспечивает так называемые условия коэффициента корреляции для алгоритма рекомендации.Когда коэффициенты больше, расчетные результаты должны быть более точными.

С математической точки зрения это расчет сходства и расстояния между пользователем и контентом.Чем выше сходство, тем ближе расстояние, тем легче добиться преобразования, поэтому распространенными алгоритмами являются алгоритм углового косинуса и коэффициент Пирсона в векторе., с точки зрения расстояния, будет алгоритм евклидова пространственного расстояния, алгоритм манхэттенского расстояния и т. д., включая множество новых алгоритмов исследования, таких как алгоритм рекомендации GCCR, основанный на сводке графа и смешанной кластеризации подобия контента.

Кратко представив GCCR, этот алгоритм может иметь высокую точность на чрезвычайно разреженных наборах данных и может предоставлять различные результаты рекомендаций в сценариях холодного запуска, тем самым избегая проблемы слишком быстрой сходимости результатов рекомендаций.

Во-первых, выберите среди пользовательских узлов узлы с большим количеством внимания, тем самым извлекая плотное подмножество в разреженных данных, и используйте метод суммирования графа для формирования основного кластера со схожими интересами в этом плотном подмножестве.

Затем извлекаются характеристики содержимого начального кластера и характеристики содержимого других пользователей во всем наборе данных, вся группа пользователей группируется на основе схожести содержимого, и, наконец, результаты кластеризации используются для рекомендации темы. Благодаря двухэтапному процессу кластеризации плотных подмножеств данных и полных наборов данных улучшается эффект кластеризации крайне разреженных наборов данных. В то же время из-за неоднозначности классов при кластеризации сводки графа можно сохранить определенное разнообразие в процессе кластеризации интересов пользователей, тем самым избегая слишком быстрой сходимости при холодном старте.

Поэтому существует множество текущих алгоритмов. Лучше всего выбрать оптимальный алгоритм в сочетании с различными сценариями и продуктами. В Приложении 5 для справки также перечислены некоторые традиционные алгоритмы расстояния.

5.3 Использование идей

Применительно к реальной ситуации его необходимо рассматривать в сочетании с самим продуктом, например, когда данные слишком малы при холодном запуске продукта, какой метод следует использовать, когда уровень данных достаточен, какой метод следует использовать для снижения расчетного давления, а тот, который требует исправления в течение длительного времени. Нам нужно рассмотреть, какой из них нам нужно использовать в данный момент, и мы также поделимся общими рекомендациями, которые мы разобрали ниже .

Тысяча человек

На ранней стадии запуска продукта и количество пользователей, и контент относительно невелики, а данных для поддержки поведения и тенденций, связанных с пользователями, недостаточно, поэтому на этом этапе высшей целью является сбор данных о поведении пользователей. и атрибуты, и сначала достигается самая грубая рекомендация.Поведение, то есть оценка того, какие пользователи являются целевыми пользователями, подозреваемыми в определенном направлении уточнения, вот и все. Эту проблему следует рассматривать в двух направлениях. Новые пользователи и старые пользователи. Новые пользователи могут судить только по знакомой среде и возможным физическим свойствам. Старые пользователи могут судить со всех сторон и в разных измерениях. Подробнее см.

Поэтому на текущем этапе основная цель - собрать поведение пользователей, и все поведения нельзя опускать. Это то, о чем я говорил выше. Во-первых, построить грубую модель меток предпочтений вокруг каждого человека. На этом этапе мы надеемся скорректировать в режиме реального времени, в соответствии с частотой использования пользователем.Она должна определяться действием, потому что оно только что запущено, и пользователи могут уйти в любой момент. Когда пользователь возвращается на главную страницу после клика по контенту, он обнаруживает, что там уже есть более интересный контент, и степень благосклонности другая.

Тысячи и десять лиц

На этом этапе базовые данные о предыдущем поведении пользователей уже поддерживаются, поэтому первое, что нам нужно сделать, это сгруппировать пользователей и найти пользователей со схожими предпочтениями.Метод заключается в использовании косинуса угла в самом классическом векторном алгоритме.Каждый пользователю напрямую нужно рассчитывать отдельно, но пользователей на стадии хорошего воспроизведения не так много, и может быть выполнено большое количество вычислений. Основа расчета состоит в том, чтобы пометить пользователей в соответствии с соответствующим рабочим поведением предыдущих пользователей и сгруппировать пользователей в соответствии со сходством меток.

Следовательно, после завершения кластеризации будет получено такое же значение признака в разделении, так что это также завершает второй этап работы, и пользователи в каждой категории отображают один и тот же контент.

Кроме того, мы уже знаем атрибуты характеристик пользователей между разными проектами. В настоящее время пользователи, которые приходят снова, могут быть соответственно помещены в подозрительную библиотеку. Когда соответствующие новые поведения пользователей собраны, мы также можем определить новое поведение пользователей. соответствующие предпочтения пользователя находятся в этом направлении, и стоимость будет значительно снижена. Поэтому на этом этапе постарайтесь собрать как можно больше, а время можно контролировать в течение 2 недель, чтобы подготовиться к следующей более точной рекомендации.

Тысячи людей

Отсюда он должен сопровождаться большим пакетом вычислений. Итак, здесь мы должны угадать неизвестные предпочтения каждого человека по поведению каждого человека, и, чтобы максимизировать совпадение рекомендаций, нам нужно установить весовой коэффициент действия, например: эффективное открытие = 5,
Share=4, Favorite=3, Interaction=2, Other Jump=1, Invalid Open=-2, Point×=-5.

После настройки мы видим, что когда пользователи A, B и C находятся на втором шаге, в одной группе, они видят один и тот же контент, но поведение может быть совершенно разным. Мы можем получить следующие приблизительные значения: Пусть любые три содержимого будут осями x, y и z, тогда для пользователя A это (3,-1,-1), а B равно (5,1,-5) , С равно (-5,3,3). Используйте угловой косинус = скалярное произведение вектора /
(перекрестное произведение длин векторов), поэтому косинус угла между A и B равен 0,81, а косинус угла между A и C равен -0,97.

По правилу косинусов 1 равно 0°, что полностью совпадает, -1 180° полностью противоположно, поэтому чем ближе к 1, тем больше они похожи, поэтому AB похож, поэтому посмотрите на разницу между AB пользователи, например, А просматривает x новости Y, B видит только новости Y и может сделать перекрестную рекомендацию.

Поэтому, когда содержание (x, y, z) больше, расчет более точен.Прямым результатом является то, что из-за постоянного увеличения количества данных и постоянного повышения уровня пользователя каждый расчет нереалистичен и пользователей много.Чем больше раз, тем больше контента и больше баллов, поэтому, учитывая это, мы достигаем конечной цели на четвертом шаге.

Тысячи людей

Благодаря предыдущему накоплению данных мы собираем большое количество предыдущего связанного поведения пользователей. Здесь нам нужно решить проблему с помощью матрицы совместной фильтрации и разборки. Суть разборки матрицы на самом деле состоит в том, чтобы получить потенциальные факторы, поэтому нам нужно сделать Это.

Объединение контента с поведением пользователя в эту таблицу может сократить количество вычислений и добиться хороших результатов, как показано в следующей таблице:

Установите допустимое открытие = 5, общий доступ = 4, избранное = 3, взаимодействие = 2, другой переход = 1, недопустимое открытие = -2, нажмите × = -5.

Используя дизассемблирование матрицы в коллаборативной фильтрации для расчета таблицы, мы можем получить следующие две таблицы:

Умножение этих двух матриц дает оценочную матрицу оценок:

После удаления контента, который пользователь уже видел, выберите контент с наивысшим баллом и порекомендуйте его пользователю (выделено красным). Так что здесь мы действительно можем дать точные рекомендации, и результаты и объем расчета достигли соответствующего баланса.

Этот шаг уже пройден, и в настоящее время информация об отображении у всех разная, поэтому, чтобы объединить предыдущее поведение людей при открытии, необходимо рассмотреть рекомендацию после рассмотрения времени, сцены и носителя контента и соответствующим образом добавить длинное содержание. , так что пользователи чувствуют себя лучше Общее направление интересов, но направление уточнения не повезло.

5.4 Отбор проб

Технология выборки в основном используется в двух местах интеллектуального анализа данных: во-первых, на этапах предварительной и постобработки данных, чтобы избежать чрезмерного масштаба вычислений; во-вторых, на этапе интеллектуального анализа данных обученная модель обычно проходит перекрестную проверку, которая требует Выборка делит все выборки на обучающую и тестовую выборки.

Вообще говоря, выборка — это случайная выборка, которая в основном используется, когда все точки выборки можно считать неразличимыми. Существует также стратифицированная выборка, при которой выборку необходимо значительно разделить на разные подмножества, и каждое подмножество отбирается отдельно.

5.5 Спецификация размеров

Когда размерность образцов увеличивается, сложность изучаемой модели увеличивается экспоненциально с увеличением размерности, явление, обычно называемое «проклятием размерности». Это также означает, что если мы хотим изучить модель с той же точностью в пространстве высокой размерности, что и в пространстве низкой размерности, количество необходимых выборок увеличивается экспоненциально.

Уменьшение размерности обычно используется для борьбы с проклятием размерности. Обычно существует две идеи для регулирования размерности: одна состоит в том, чтобы выбрать некоторые измерения, которые могут наилучшим образом выразить данные из многомерных данных, и использовать эти измерения для представления данных, что называется выбором признаков; -мерные данные с помощью некоторых навыков.Отображение в низкоразмерное пространство называется построением признаков.

Анализ основных компонентов является наиболее важным методом выбора признаков.Он может получить вклад каждого измерения в минимальную среднеквадратичную ошибку всех данных посредством разложения признаков, чтобы количественно оценить вклад каждого измерения в информацию, содержащуюся в данных. . Затем сохраните некоторые из наиболее важных измерений, отбросьте некоторые незначительные измерения и уменьшите размерность данных.

Разложение по сингулярным числам — это основной метод построения признаков, который отображает данные из многомерного пространства в низкоразмерное посредством матричной декомпозиции и уменьшает размерность данных.

5.6 Рекомендуемый дисплей

На этапе отображения мы должны думать о пользователе как о единственном измерении.Из главы 3 мы также можем видеть, что он делится на внешние факторы и внутренние факторы.Общее направление определяется внешними факторами, а внутренние факторы определяются с помощью этого поведения операции достичь цели подгонки пользователя. Поэтому не обязательно историческое поведение пользователя, что определенный тип контента открывался больше и выше, и его надо ставить на передний план.При использовании его самого по себе возникает еще и так называемая скука, которая сочетается с неожиданным содержанием, и является ли оно сначала слабым, а затем сильным или сильным, а затем сильным. Является ли оно слабым или слабым в середине — это то, что мы должны время от времени менять через пользователей. Сила — это количественный показатель привлекательности контент проанализирован на основе исторического поведения пользователей.

5.7 Информационная комната-кокон

Все текущие практики заключаются в том, чтобы сделать пуш максимально точно любой ценой и максимизировать конверсию, но действительно ли это хорошо? Я не могу не думать с другой точки зрения: если пользователи получают контент, соответствующий их предпочтениям, лучший ли это выбор? На самом деле это не так, это скорее попадание в более опасную ситуацию - комнату информационного кокона.

Американский ученый Кит Р. Санстейн указывал, что информационный кокон комнаты представлен в виде «личной повседневности»: «С развитием сетевых технологий и быстрым ростом информации люди могут выбирать темы, на которые они хотят обратить внимание, в будет, и они могут настраивать газеты и газеты в соответствии со своими предпочтениями. Журналы, каждый может создать для себя "персональный ежедневник". Комната информационного кокона похожа на «эхо-камеру», люди задают темы, мнения и слышат свои собственные отголоски, и каждый будет замкнут в своем пространстве».

Столкнувшись с тем, как выбраться из «информационного кокона» и обуздать тенденцию к «эхо-стене» персонализированных рекомендаций по новостям, Санстейн предложил построить «тротуарную» модель сети. Он считает, что независимо от того, принадлежат ли физические пространства, такие как улицы, парки или средства массовой информации, такие как газеты, радио и телевидение, к общественному достоянию, и должны ли они быть подобны «тротуарам», которые могут столкнуться с различными незапланированными и нежелательными ситуациями, различными группами людей. Будут распознаны новые переживания, те ситуации, которые возникнут без осознания экранирования, вызовут взаимодействие слов и поступков людей.

Согласно теории Санстейна, средства массовой информации должны добавить «общественные форумы», чтобы предоставить пользователям доступ к информации в различных областях, предоставляя информацию, которую они «незапланировали» и «нежелательны». Общая практика текущих новостных клиентов состоит в том, чтобы добавить столбец «горячих» каналов и использовать небольшую красную метку со словом «горячие» в информационном потоке под каждым каналом, чтобы указать информацию об горячих точках, чтобы показать разницу. Предоставьте пользователям доступ к различным классам представлений и различным категориям информации.

Однако с точки зрения персонализированных рекомендаций по новостям следует ослабить принцип рекомендации релевантности для пользователей и расширить области внимания пользователей. Персонализированная рекомендация основывается не только на собственной базовой информации пользователя, но и на совместной фильтрации, в основе которой лежат интересы друзей в социальных отношениях. Этот рекомендательный принцип заставит пользователей собрать группу друзей, схожих с ними по интересам, культуре и т. д., а однородность объектов внимания сделает информацию, получаемую пользователями, гомогенизированной.

Таким образом, как построить модель на основе текущих интересов, проанализировать точки смещения интересов и даже скорость смещения после спекуляций на основе текущих интересов и завершить рекомендацию по длинному контенту в нужное время, может быть реальной ценностью рекомендательной системы в будущее.

5.8 Резюме

После того, как алгоритм выпущен, он нуждается в длительной корректировке и корректировке в режиме реального времени, в этом примере пользователи по-прежнему разделены на группы. Я считаю, что для приложений, таких как Toutiao и Netease News, каждый человек должен быть измерением, а расчет сходства между каждым человеком и содержанием статьи является конечной целью. Поскольку у людей есть собственная система пользовательских тегов, как и у контента, сначала определите самый большой тег, который может повлиять на вес пользователя для грубой проверки, а затем уточните каждый контент и каждого человека, чтобы выполнить векторный расчет, чтобы получить результаты один за другим, и рекомендовать по одному.

После каждого дня должен быть соответствующий обзор для оценки эффекта предыдущей стратегии.Рассмотрите преимущества и недостатки стратегии в сочетании со временем просмотра, коэффициентом открытия, интерактивной обратной связью, удалением и т. д. и внесите быстрые корректировки. Ниже будет введено создание системы оценки соответственно.

6 Система оценки

Что мы должны получить, так это улучшить и оптимизировать исходную пользовательскую модель на основе явной или неявной обратной связи пользователя по рекомендации, чтобы гарантировать, что модель может соответствовать последним предпочтениям пользователя, тем самым повышая точность модели и качество рекомендаций.

6.1 Оценочные параметры

Наиболее типичными алгоритмами измерения точности являются средняя абсолютная ошибка (MAE), среднеквадратическая ошибка (MSE) и стандартная средняя ошибка (NMSE). Средняя абсолютная ошибка представляет собой среднее абсолютных значений отклонений всех отдельных наблюдений от среднего арифметического и используется для измерения степени дисперсии самого набора чисел. Есть два преимущества: во-первых, метод расчета прост и понятен, во-вторых, средняя абсолютная ошибка каждой системы уникальна, так что можно различить разницу между средними абсолютными ошибками двух систем и реальная ситуация с ошибкой прогнозируемого значения может быть лучше отражена. В некоторых системах пользователи заботятся только об ошибке прогноза в начале списка рекомендаций, но не сильно заботятся об общей ошибке системы.В настоящее время нецелесообразно использовать точность прогноза для оценки. последние два больше подходят для измерения точности классификации системы.Качество рекомендации используется для измерения отклонения между наблюдаемым значением и истинным значением, указывая степень дисперсии выборки, и может использоваться в качестве числового индикатора для измерения точность измерения.

Установленная точность, отзыв и точность также могут использоваться для измерения точности рекомендации.Точность представляет собой вероятность того, что пользователь заинтересован в рекомендуемом контенте, а отзыв определяется как контент, который нравится пользователю в списке рекомендаций. и пользователю нравится в системе.Отношение всего контента , коэффициент точности определяется как отношение контента, просматриваемого пользователями в списке рекомендаций, к общему рекомендуемому контенту.

Существуют также такие факторы, как разнообразие (среднее расстояние Хэмминга), точность классификации (кривая ROC), точность ранжирования (средний балл ранжирования) и период полураспада (параметр полураспада), который также был описан до того, как интерес пользователя, к счастью, возрастет или увеличится. уменьшаться со временем. Кроме того, все еще можно объяснить показатели, непосредственно связанные с пользователями, такие как неожиданность, удивление, охват, свежесть и удовлетворенность пользователей.

Средства получения этих оценок обычно получают из отзывов пользователей, количественной оценки данных, долгосрочных наблюдений и данных опыта и в конечном итоге преобразуют в количественные показатели для оценки, такие как время использования, глубина использования, коэффициент открытия и т. д., и Затем разобрали, какое поведение связано с определенным индикатором, проведите отслеживание связанного поведения и непосредственно определите местонахождение. Чтобы достичь основного смысла системы оценки, хорошо это или плохо, если нет, то в чем проблема, она будет исправлена ​​после позиционирования. Студенты, изучающие эту часть продукта, должны иметь общее представление о том, какие методы доступны. Конкретный принцип реализуется командой алгоритмов. Слишком сложно понять их все. Слишком много математического содержания. Если вам интересно, вы можете узнать самостоятельно.

6.2 Связанные поправки

Используемые в настоящее время технологии обновления пользовательской модели можно в основном разделить на три категории: одна представляет собой технологию информационного дополнения, которая извлекает новую информацию из обратной связи с пользователем и добавляет ее в пользовательскую модель; другая представляет собой технологию естественного развития, оптимизирующую пользовательскую модель в соответствии с закон выживания наиболее приспособленных в экосистеме; существует еще один тип технологии нейронных сетей, который адаптивно обновляется, регулируя вес сетевых соединений.

Технология информационного дополнения

Это, безусловно, наиболее часто используемый класс методов обновления модели пользователя. Он также включает два типа прямого добавления информации и добавления информации, включающей корректировку веса. Первый напрямую добавляет полученную информацию об отзывах пользователей в пользовательскую модель, типичные системы, такие как GroupLens, Ringo, Video
Рекомендатель, ПК
Finder, WEBSELL и т. д. Этот тип обновления просто добавляет новую информацию, а не удаляет или уменьшает роль недопустимой старой информации в пользовательской модели, поэтому он может вызвать ложноположительные ошибки на этапе рекомендации, то есть рекомендовать элементы, которые пользователь не нравится пользователю.

И со временем размер модели продолжает увеличиваться, что приводит к проблемам с использованием места для хранения и обслуживанием модели. Напротив, системы, использующие последнюю как более новую технологию, такие как LetiziatL, Personal Web
Watcher, Webmate, Krakatoa Chronicle и WebCobral
, который не только добавляет новую информацию обратной связи пользователя (например, новые ключевые слова) в пользовательскую модель, но также регулирует вес новой и старой информации в пользовательской модели, так что новая информация, отражающая последние предпочтения пользователя, играет более важную роль. важную роль в рекомендации.В то же время недействительная старая информация со временем будет удалена из модели по мере того, как ее вес продолжает уменьшаться. Таким образом, технология дополнения информации с корректировкой веса в определенной степени снимает проблему прямого информационного наполнения, но на производительность такого рода технологии легко влияет новый метод отбора информации и количество добавляемой новой информации.

Генетический алгоритм

Генетический алгоритм представляет собой итеративную технологию поисковой оптимизации, основанную на естественном отборе и генетическом механизме, который состоит из функции приспособленности, популяции хромосом и трех основных операторов отбора, кроссинговера и мутации. Каждое поколение популяции содержит несколько особей (называемых хромосомами). В соответствии со значением функции пригодности каждой особи популяция развивается в направлении, которое лучше и более адаптируется к окружающей среде посредством операций отбора, скрещивания и мутации, чтобы постепенно приближаться к оптимальному решению. Система, использующая генетические алгоритмы в качестве метода обновления модели.

Обычно пользовательская модель кодируется в одной хромосоме, а другие хромосомы генерируются случайным образом в качестве начальной популяции. Когда начальная эволюция популяции повторяется, чтобы соответствовать условию прекращения, хромосома с наивысшей приспособленностью может быть декодирована, чтобы заменить текущую модель системы Ганху для достижения обновления. Другая часть системы также использует генетический алгоритм в качестве механизма обновления модели, но эта часть системы обеспечивает обновление модели опосредованно за счет выживания наиболее приспособленных агентом сбора информации, а не самой пользовательской моделью. Когда интересы пользователей меняются в результате генетической эволюции, старые агенты с низкой производительностью устраняются, а агенты, которые могут напрямую удовлетворять новые интересы пользователей или полезны для пользователей и других агентов, умножаются.

Технология обновления, основанная на генетическом алгоритме, непрерывно ищет возможное пространство композиции пользовательской модели из нескольких начальных точек (групп), а не из одной точки, поэтому это эффективный и оптимизированный алгоритм обновления пользовательской модели. Но технология обновления, основанная на генетическом алгоритме, его функции пригодности и методе кодирования хромосом, требует специального проектирования для каждой задачи.

Технология нейронных сетей

Нейронная сеть — это метод адаптивного обновления. Когда пользовательские предпочтения изменяются в любое время, нейронная сеть будет адаптивно корректировать веса сетевых подключений и обновлять результаты распознавания, выдаваемые сетью, для отслеживания таких изменений. Некоторые обновления только классифицируют и корректируют старую и новую информацию о предпочтениях на основе исходных категорий, в то время как другие устанавливают новые идентификационные категории и сокращают идентификационные категории, представляющие устаревшие знания, чтобы соответствовать росту новых интересов пользователей и упадку старых. интересы. В этом случае сетевая структура нейронной сети изменилась, и может потребоваться переобучение сети для распознавания и запоминания изменившихся пользовательских предпочтений. Поскольку обновление нейронной сети зависит от обучения предыдущей нейронной сети, обычно только системы, использующие нейронную сеть в качестве технологии обучения, будут использовать ее в качестве технологии обновления.

По сравнению с технологией обучения модели, технология обновления пользовательской модели более удобна в использовании.
Обучение на основе времени, а не создание и выполнение модели, поэтому алгоритм должен иметь более высокую эффективность обучения и адаптируемость к динамическим изменениям. Однако есть и соответствующие проблемы: текущая технология обновления модели обычно обновляет модель только с фиксированной периодичностью, из-за чего система не может вовремя отслеживать и фиксировать изменения в интересах пользователей, что приводит к расхождению между рекомендательными результатами и фактическими интересы пользователей.

6.3 Резюме

В этом разделе описывается создание системы оценки, перечислены соответствующие параметры и действия и т. д., а также перечислены соответствующие методы коррекции и краткие введения, чтобы постоянно пересматривать модели и алгоритмы в долгосрочной перспективе для достижения лучших результатов и предоставления более полных и качественных результатов. -качественные услуги пользователям.

7 Полное текстовое резюме

Вся статья описывает весь процесс создания рекомендательной системы, начиная с выражения идеи, системы меток, пользовательской системы, системы проектов, ссылки на рекомендацию и создания системы оценки, а также соответствующих деталей, а также текущей модели, технических средств и т. д. Весь процесс описан максимально полно и подробно для сортировки и ссылки.После основного текста есть приложение, в котором подробно описан алгоритм и связанные с ним методы выдержек для общего ознакомления.

Кевин Келли в своей книге «Вне контроля» делает акцент на «коэволюции»:

Эволюция постоянно приспосабливается к окружающей среде для удовлетворения собственных потребностей. Коэволюция — это более целостный взгляд на эволюцию, которая постоянно адаптируется к окружающей среде, чтобы удовлетворить потребности друг друга. Средства массовой информации постоянно развиваются и адаптируются к окружающей среде посредством конкуренции и в то же время предоставляют пользователям более качественные услуги и больше возможностей для удовлетворения растущих потребностей пользователей.

В настоящее время даже использование рекомендательных систем принципиально не решает проблему эффективного получения информации людьми. Поэтому мы все еще можем попытаться изучить более интеллектуальный режим сбора информации и более естественный интерфейс взаимодействия человека с компьютером.

Так же, как и "Дабай", он хочет быть везде перед пользователем, и отображает информацию, которую он хочет видеть, в нужное время. Она меняется в зависимости от настроения. Ведь психологическая деятельность человека очень тонкая. Проникновение в тонкие поведенческие изменения - это направление будущих усилий.

8 ссылок

«zouxy09» — некоторые источники машинного обучения;
«LeftNotEasy — Вангда Тан» — там же;
"Углубленное обсуждение | На самом деле вы не понимаете механизм маркировки продуктов" - источник некоторых идей в части этикетки;
"О применении матричной декомпозиции в рекомендательной системе" - некоторые источники знаний по векторной декомпозиции;
Каков алгоритм рекомендации плейлистов NetEase Cloud Music? 》— Текущий основной источник алгоритма рекомендаций;
«Директор по исследованиям и разработкам в процентах Су Хайбо: методы и практика маркетинга портретов пользователей больших данных» — часть ценности портретов пользователей;
Я опускаю более 100 профессиональных статей по рекомендациям, алгоритмам, психологии и поведению, которых слишком много, чтобы их можно было копировать.

Приложение 1. Алгоритмы общих методов машинного обучения

Приложение 2 Идея извлечения тегов Baidu Baike для установления ассоциации

Введение в энциклопедию Baidu

Основным содержанием, составляющим энциклопедию Baidu, является статья. Страницу входа можно условно разделить на несколько частей: визитная карточка энциклопедии, основной текст статьи, открытая классификация, связанные статьи, справочные материалы и расширенное чтение.В зависимости от конкретной ситуации каждой статьи некоторые части могут быть недоступны.

Среди них визитная карточка энциклопедии представляет собой общее описание статьи; тело статьи представляет собой подробное описание статьи, которое может состоять из нескольких абзацев; открытая классификация содержит теги атрибутов статьи, до 5, обычно такого рода. этикетки имеет определенную информацию о категории; связанные записи — это связанные записи, которые тесно связаны с текущей записью, и, как правило, эта связь должна быть горизонтальной. Например, связанные записи «Цяо Фэн» могут быть «Сюйжу» и т. д. но не «Тяньлун Бабу».

Хотя на странице входа энциклопедии мы можем видеть только метку открытой категории статьи, но на самом деле внутри энциклопедии существует трехуровневая система классификации с иерархией. Первый уровень состоит из двенадцати основных категорий; каждая основная категория содержит несколько средних категорий, что является классификацией второго уровня; каждая средняя категория может быть подразделена на несколько подкатегорий.

Метод генерации

Мы берем небольшую категорию третьего уровня трехуровневой системы классификации Baidu Baike в качестве запроса и будем искать страницу входа в этой категории в Baidu Baike. Но таким образом для каждой небольшой категории мы можем получить не более 760 связанных входных страниц, и мы не можем получить больше входных страниц, которые действительно можно разделить на эту категорию.

Мы искали "Технологии"Интернет
Страница в категории «Электронная коммерция» показывает в общей сложности 3469 записей. Однако мы просматриваем страницу результатов поиска и можем просмотреть не более 760 страниц входа. В этом методе нам нужно использовать трехуровневую классификацию Baidu Baike. система Например, "Технология
Интернетпрограммирование», «жизньразвлечение«Видео» используется в качестве пользовательского набора тегов-кандидатов, поэтому ресурсы, которые мы можем использовать, — это максимум 760 входных страниц в каждой подкатегории, которые могут быть получены.

Анализируя микроблоги, размещенные пользователем, мы берем в качестве своего ярлыка трехуровневую категорию энциклопедии, которая его больше всего интересует. Основная идея метода заключается в том, чтобы сопоставить каждый микроблог, опубликованный пользователем, с наиболее релевантной страницей входа в энциклопедию, получить его категорию и определить метку пользователя с помощью определенной стратегии голосования.

Ниже подробно описаны основные этапы метода.

Получение и обработка страниц энциклопедии

Согласно открытой странице просмотра категорий, предоставленной энциклопедией Baidu, мы сканируем все URL-адреса запросов подкатегорий третьего уровня, которые выглядят какEncyclopedia.Baidu.com/tag list?tag…, URL-адрес указывает на страницу поиска для этого тега категории. Парсингом страницы поиска мы скачали 760 открытых Энциклопедий
соответствующие входные страницы. Получив страницу и сохранив ее по третьему уровню малых категорий, извлекаем текст. Существует два типа страниц ввода, один из которых является страницей неоднозначности, то есть запись содержит несколько значений, как показано на следующем рисунке:

Одна из них — недвусмысленная страница. С ними нужно разбираться отдельно: для неоднозначных страниц извлекать каждый семантический элемент как страницу отдельно. Мы извлекаем заголовок, визитную карточку, текст и категорию страницы энциклопедии, выполняем сегментацию слов и другую обработку, а затем строим индекс для последующего использования.

Поиск страниц входа, связанных с Weibo

Учитывая Weibo, нам нужно найти похожие или похожие страницы Википедии, чтобы получить его категорию. Превратим эту задачу в задачу поиска. Извлекайте запросы из Weibo и ищите наиболее релевантные из проиндексированных страниц Википедии. Мы используем Индри
Индексировать страницу входа. Indri происходит от системы Lemur и представляет собой CMU и UMass.
Совместная система для языкового моделирования и информационно-поисковых исследований. Кроме того, может быть реализован поиск на основе языковых моделей и традиционных моделей векторного пространства. Академия уже давно приветствует Индри.

Мы будем извлекать существительные, существительные и прилагательные в Weibo, чтобы сформировать взвешенный запрос, вес которого TFIDF
Подсчитано, что построенный запрос имеет вид «#вес(0,45 Рак 0,35 Символ 0,20 Характеристика)». С помощью построенного запроса ищем наиболее релевантные для запроса страницы терминов и получаем соответствующую категорию.

Генерация пользовательского тега

Предполагая, что существует m типов меток категорий с трехуровневой классификацией, мы принимаем их в качестве пользовательского набора меток-кандидатов, обозначаемого как C={}.

Для пользователя u извлеките набор текстов микроблогов W={}, опубликованных им, и количество текстов равно n. Строим по ним запросы соответственно и получаем набор запросов Q={}. Для каждого запроса q мы получаем Top
N результатов используются в качестве входных страниц, связанных с запросом. Поскольку каждая запись может принадлежать нескольким категориям, мы можем получить более N категорий, связанных с запросом (или соответствующим Weibo). Для каждой из ассоциированных категорий c вычисляем ее балл, как в формуле. в,
freq(c) относится к частоте появления c в этом запросе, а d — это константа, которую мы устанавливаем. Например, если мы установим его равным 1, оценка c будет количеством вхождений c в этом запросе, если d установлен Установите страницу входа, связанную с этой категорией, чтобы она отображалась в Top
Конкретная позиция в результате N указывает на то, что на оценку c влияет ранжирование результатов поиска.Чем выше ранжирование, тем больше вклад в оценку.

После того, как весь процесс запроса будет остановлен, мы рассчитаем рейтинг ранжирования для каждой метки c в наборе меток-кандидатов, и мы можем использовать этот алгоритм, где n относится к количеству запросов. мы берем 10 лучших
как автоматически сгенерированный ярлык для пользователя.

Приложение 3 Исследование психологической мотивации Toutiao

исследовательская модель

Демографические характеристики пользователей «Сегодняшнего Toutiao», такие как возраст, пол и пользовательские медиа-предпочтения, независимая переменная — мотивация пользователей «Сегодняшнего Toutiao», промежуточная переменная — отношение пользователей «Сегодняшнего Toutiao», а зависимая переменная — «Сегодняшний Toutiao». Поведение пользователей Toutiao». Основным направлением исследования является использование отношения использования в качестве переменной-посредника для изучения влияния мотивации использования (спроса) на поведение использования.

управляющая переменная

Контрольные переменные в основном включают демографические характеристики, такие как пол, возраст, уровень образования и род занятий.

Независимая переменная — мотивация (потребность)

В соответствии с теорией «использования и удовлетворения» пользователи рассматриваются как личности с определенными «потребностями», а их действия в контакте со СМИ расцениваются как «использование средств массовой информации», основанное на конкретной мотивации спроса, и в конечном итоге эти потребности удовлетворяются. , процесс. Есть два основных аспекта формирования этого специфического спроса: один из них — социальные факторы, а другой — личностно-психологические факторы. Исходя из личных и социальных факторов и принимая во внимание пользовательский опыт (простота использования, полезность) «Сегодняшнего Toutiao», это исследование резюмирует несколько мотивов, побуждающих пользователей использовать «Сегодняшнее Toutiao». Этот опрос разделяет потребности пользователей в использовании Toutiao на три измерения: потребности в средствах массовой информации, социальные потребности и потребности в опыте.

переменная-посредник

В этом исследовании в качестве промежуточной переменной используется отношение (удовлетворенность) пользователя к «Сегодняшнему Toutiao». В теории рационального поведения и модели принятия технологий (TAM) опосредующие переменные включают два аспекта: отношение к использованию и намерение поведения. Отношение к использованию включает в себя положительные или отрицательные взгляды человека на определенное поведение при использовании; поведенческие намерения отражают готовность человека участвовать в поведении. Но в социальной психологии «отношение» определяется как способ реакции индивида на вещи, охватывающий уровень поведенческих намерений, обычно отражающийся в убеждениях, чувствах или поведенческих тенденциях индивида. Видно, что «отношение» уже охватило уровень поведенческого намерения. Таким образом, в этом исследовании в качестве промежуточной переменной используется только отношение. Под «отношением» здесь понимаются положительные или отрицательные взгляды пользователей на «Сегодняшнее Toutiao», основанные на их познании и опыте использования «Сегодняшнего Toutiao».

зависимая переменная

Зависимой переменной является «поведение использования» пользователей «Сегодняшнего Toutiao». Поведение здесь включает такие вопросы, как продолжительность использования, частота использования и время использования.

Статистический анализ

Описаны и проанализированы следующими статистическими методами:

  1. Описательная статистика: подсчитайте частоту, пропорцию, стандартное отклонение и частоту каждой переменной, чтобы описать использование, мотивацию, отношение и поведение протестированных пользователей на «Today’s Toutiao».
  2. Анализ надежности: Подтвердите анализ надежности переменных в исследовательской модели, чтобы измерить надежность, согласованность и стабильность вопросника.
  3. Корреляционный анализ: Статистический метод, используемый для анализа взаимосвязи между двумя или двумя группами случайных величин и для обнаружения близости переменных.
  4. Crosstabs: две или более связанные переменные и их значения переменные являются перекрестными в статистической таблице в определенном порядке, так что каждое значение переменной становится узлом разных переменных, а переменные анализируются из него. Корреляция между ними.
  5. в заключении

В целом, мотивация пользователей к использованию Toutiao заключается в том, что новости в режиме реального времени и своевременны, а также в понимании текущей тенденции «короткого, плоского и быстрого» фрагментированного чтения, а типы информации в основном представляют собой короткие сообщения, изображения, и видео.

С точки зрения личных психологических факторов основная причина популярности Toutiao сегодня заключается в том, чтобы уловить психологию аудитории для удовлетворения личных потребностей. Результаты исследования потребностей пользователей показывают, что «персональные рекомендации» (60,79%), «быстрая скорость обновления» (60%) и «больше push-контента (45,26%) являются тремя самыми сильными мотивами для пользователей. Активны комментарии, пересылка и сбор», «Легко работать и удобно читать» и «Автономная загрузка, экономия трафика» составляют небольшую долю, что указывает на то, что большинство пользователей не склонны соглашаться с тем, что это является их мотивом для использования «Сегодняшнего Тутиао».

Этот вывод также согласуется с пропагандистской концепцией и позиционированием «персонализированных новостных рекомендаций» Today's Toutiao. По сравнению с другими новостными клиентами, самым большим преимуществом «Сегодняшнего Toutiao» является то, что он может точно анализировать читательские интересы пользователей и проводить более подробное распространение контента в соответствии с интересами и потребностями пользователей, а также делать персонализированные рекомендательные новости. Результаты этого исследования также показывают, что пользователи выбирают «Сегодняшний Toutiao», исходя из потребностей в персонализации и производительности в реальном времени.

В этом исследовании сравнивается среднее значение отношения пользователей к использованию «Сегодняшнего Toutiao». Средняя степень распознавания положительного отношения пользователей к «Сегодняшнему Toutiao» составляет
3.77. Судя по данным, три функции «Today's Toutiao»: «быстрая скорость обновления», «богатый push-контент» и «простота в эксплуатации и удобное чтение» являются наиболее узнаваемыми пользователями. Среди них «быстрая скорость обновления» является самым высоким средним показателем во всей таблице 3,87.
баллов, что доказывает, что «Today's Toutiao» уделяет внимание своевременности новостей и удовлетворяет потребности пользователей в первом просмотре новостных событий. Среднее значение «точной персонализированной рекомендации» как самой сильной мотивации пользователя составляет всего 3,69, что ниже 3,77.
Видно, что признание пользователями «точной персонализированной рекомендации» невысоко. Это также не согласуется с выводами о мотивации.

Поскольку персонализированные рекомендации имеют недостаток холодного старта, то есть новые пользователи не имеют доступной информации о поведении в начале и не могут понять характеристики и потребности пользователей, поэтому трудно дать точные рекомендации. Поэтому нельзя исключать, что персонализированная рекомендация пользователя не является точной на начальном этапе использования, но по мере увеличения времени использования в системе есть данные о поведении пользователя, и персонализированная рекомендация будет становиться все более точной.

Чтобы проверить эту гипотезу, в этом исследовании был разработан перекрестный анализ отношения использования и времени использования, чтобы выяснить, будет ли удовлетворенность персонализированными рекомендациями увеличиваться со временем использования. Согласно экспериментальным данным, пользователи, которые использовали Toutiao менее недели, имеют средний показатель удовлетворенности 3,64 для «точных персонализированных рекомендаций» и средний показатель удовлетворенности 3,73 для пользователей, которые используют Toutiao от трех до шести месяцев.
3,87, средний уровень удовлетворенности показывает тенденцию к росту с увеличением времени использования. Видно, что чем дольше время использования, тем выше удовлетворенность пользователя «точной персонализированной рекомендацией». И не только «точные персонализированные рекомендации», но и «быстрый и всесторонний интеллектуальный поиск», «удобная работа и комфортное чтение», оба из которых имеют феномен повышения удовлетворенности пользователей с увеличением времени использования.
Степень одобрения пользователем отрицательного отношения к «Today's Toutiao» составляет 3,21. Среди них пользователи больше всего признают «слишком много рекламных акций и рекламы», «феномен серьезной вечеринки в заголовках» и «серьезную гомогенизацию push-контента и сужение информационных каналов». Три пункта, с которыми пользователи не согласны больше всего, это «картинки слишком кровавые», «слова слишком интенсивные» и «разделению столбцов не хватает индивидуальности», все из которых ниже, чем
3,21 в среднем. Видно, что «Today's Toutiao» очень эффективно отслеживает порнографические, жестокие и кровавые новости.

Среди них «слишком много рекламных акций и рекламных объявлений» является самым высоким средним значением 3,47 во всей таблице.Видно, что пользователи совершенно очевидно относятся к «слишком большому количеству рекламных акций и рекламных объявлений» «Сегодняшнего Toutiao». Согласно личным экспериментам автора, в информационном потоке «Today's Toutiao» через каждые шесть-семь новостей будет подмешиваться реклама, и ощущение все еще относительно сильное.

Точно так же в этом исследовании также был проведен перекрестный анализ негативного отношения и времени использования. Анализ показывает, что среднее значение распознавания «слишком много промо-акций и рекламы» имеет тенденцию к снижению по мере увеличения времени использования. Видно, что чем дольше пользуешься, тем меньше чувствуешь, что слишком много акций и рекламы. Не исключено, что персонализированная рекомендация понимает потребности пользователей и корректирует количество рекламы. Не только «слишком много рекламных акций и рекламы», но и «феномен вечеринки в заголовках — это серьезно».

«Однородность пуш-контента серьезная, а информационные каналы сужены», «разделению столбцов не хватает индивидуальности», «жалобы слишком ожесточенные», «контент подписки не обновляется вовремя», а картинки слишком кровавая общая тенденция к снижению.

Приложение 4. Общие методы в рекомендательных системах

Рекомендация на основе контента

Рекомендация на основе контента является продолжением и развитием технологии фильтрации информации, она основана на информации о содержании проекта, чтобы давать рекомендации, и не должна основываться на пользовательской оценке проекта.
Метод машинного обучения получает профиль интересов пользователя из экземпляров описания функции о контенте. В рекомендательных системах на основе контента элементы или объекты определяются атрибутами связанных функций, а система оценивает объекты на основе оценок пользователей.
функции, изучить интересы пользователей и изучить степень соответствия между профилями пользователей и прогнозируемыми элементами. Модель данных пользователя зависит от используемого метода обучения.Обычно используются деревья решений, нейронные сети и векторные методы представления.
Профили пользователей на основе контента требуют исторических данных о пользователях, и модель профиля пользователя может меняться по мере изменения предпочтений пользователя.

Преимущества методов рекомендаций на основе контента:

  • Нет необходимости в данных от других пользователей, нет проблем с холодным запуском и разреженностью.
  • Его можно рекомендовать для пользователей с особыми интересами.
  • Могу порекомендовать новые или не очень популярные товары, проблем с новыми товарами нет.
  • Перечисляя характеристики содержания рекомендуемых элементов, можно объяснить, почему эти элементы рекомендуются.
  • Есть относительно хорошие технологии, например, по классификационному обучению, которые являются достаточно зрелыми.
    Недостатком является то, что контент может быть легко извлечен в значимые функции, контент функции должен иметь хорошую структуру, а вкус пользователя должен быть выражен в форме функций контента, а мнение других пользователей не может быть получено в явном виде.

Рекомендации по совместной фильтрации

Технология рекомендаций по совместной фильтрации — одна из первых и наиболее успешных технологий в рекомендательных системах. Обычно он использует технологию ближайшего соседа, используя историческую информацию о предпочтениях пользователя для расчета расстояния между пользователями, а затем
Предпочтение целевого пользователя определенному товару прогнозируется с использованием взвешенного значения оценки ближайших соседей целевого пользователя по оценке товара, и система рекомендует целевого пользователя в соответствии со степенью предпочтения. совместная фильтрация лучше всего
Дело в том, что к рекомендуемым объектам нет особых требований, и он может работать с неструктурированными и сложными объектами, такими как музыка и фильмы.

Совместная фильтрация основана на предположении, что хороший способ для пользователя найти то, что ему действительно интересно, состоит в том, чтобы сначала найти других пользователей, которые имеют схожие интересы с этим пользователем, а затем порекомендовать интересующий их контент этому пользователю. его основной
Мысли очень легко понять, и в нашей повседневной жизни мы, как правило, пользуемся рекомендациями хороших друзей, чтобы сделать какой-то выбор. Совместная фильтрация заключается в применении этой идеи к системе рекомендаций электронной коммерции на основе мнений других пользователей об определенном внутреннем контенте.
Оценка контента для рекомендации целевым пользователям.

Можно сказать, что система рекомендаций, основанная на совместной фильтрации, дает соответствующие рекомендации с точки зрения пользователя, и она является автоматической, то есть рекомендация, полученная пользователем, неявно получена системой из режима покупки или поведения при просмотре и т. д. , Рекомендуемая информация о ваших собственных интересах, например, заполнение некоторых форм опроса и т. д.

По сравнению с методами фильтрации на основе контента коллаборативная фильтрация имеет следующие преимущества:

  • Возможность фильтровать информацию, которую трудно выполнить автоматическим анализом содержимого с помощью машин, например изображения, музыку и т. д.
  • Обмен опытом других людей позволяет избежать неполного и неточного анализа контента и обеспечивает фильтрацию на основе сложных, трудновыразимых понятий (например, качество информации, личный вкус).
  • Возможность рекомендовать новую информацию. Может быть найдена информация, совершенно не похожая по содержанию, а содержание рекомендуемой информации не может быть ожидаемо пользователем заранее. В этом также заключается большая разница между совместной фильтрацией и фильтрацией на основе контента.Многие рекомендации по фильтрации на основе контента представляют собой контент, с которым пользователи уже знакомы, в то время как совместная фильтрация может выявить потенциальные, но неизвестные интересы и предпочтения пользователей.
  • Он может эффективно использовать информацию отзывов других подобных пользователей, уменьшать количество отзывов пользователей и ускорять скорость персонализированного обучения.
    Хотя коллаборативная фильтрация широко применяется в качестве типичной технологии рекомендаций, в коллаборативной фильтрации еще предстоит решить много проблем. Наиболее типичными проблемами являются проблема разреженности и проблема масштабируемости.

Рекомендация на основе правил ассоциации

Рекомендация, основанная на правилах ассоциации, основана на правилах ассоциации, где приобретенный продукт используется в качестве заголовка правила, а тело правила — в качестве объекта рекомендации. Интеллектуальный анализ ассоциативных правил может обнаружить корреляцию различных товаров в процессе продаж, а при нулевом уровне
Он успешно применяется в сфере продаж. Правило управления состоит в том, чтобы подсчитать в базе данных транзакций, какой процент транзакций, которые покупают набор товаров X, одновременно покупают набор товаров Y.
Склонность покупать определенные предметы при покупке других предметов. Например, покупая молоко, многие одновременно покупают хлеб.

Обнаружение правил ассоциации на первом этапе алгоритма является наиболее важным и трудоемким, а также узким местом алгоритма, но его можно выполнить в автономном режиме. Во-вторых, проблема синонимии товарных наименований — это еще и сложность правил ассоциации.

Рекомендация на основе полезности

Рекомендация на основе полезности рассчитывается на основе полезности использования пользователем элемента.Основная проблема заключается в том, как создать функцию полезности для каждого пользователя.Поэтому модель профиля пользователя очень велика.
Степень определяется функцией полезности, используемой системой. Преимущество рекомендаций, основанных на полезности, заключается в том, что они могут учитывать атрибуты, не связанные с продуктом, такие как надежность поставщика и доступность продукта, при расчете полезности.

Рекомендация, основанная на знаниях

Рекомендацию, основанную на знаниях, в определенной степени можно рассматривать как метод рассуждения, она не рекомендуется на основе потребностей и предпочтений пользователя. подход, основанный на знаниях
Используемые ими функциональные знания существенно различаются. Полезные знания — это знания о том, как элемент удовлетворяет конкретного пользователя и, таким образом, объясняет взаимосвязь между потребностями и рекомендациями, поэтому профили пользователей могут быть любой структурой знаний, поддерживающей рассуждения, которые могут
Является ли запрос, нормализованный пользователем, или более подробным представлением потребностей пользователя.

Рекомендация по комбинации

Поскольку различные рекомендательные методы имеют преимущества и недостатки, на практике часто используется комбинированная рекомендация. Наиболее изученным и применяемым является сочетание рекомендации по содержанию и рекомендации по совместной фильтрации. Самый простой способ — использовать метод на основе контента и метод рекомендаций по совместной фильтрации соответственно.
чтобы сгенерировать результат прогнозирования рекомендации, а затем каким-либо образом объединить результаты. Хотя в теории существует много методов рекомендаций по комбинациям, не все они эффективны в конкретной проблеме.
После объединения необходимо избегать или компенсировать недостатки соответствующих рекомендуемых технологий.

Что касается комбинированных методов, некоторые исследователи предложили семь комбинированных идей:

  • Взвешенный: взвешивает результаты метода нескольких рекомендаций.
  • Преобразование: в зависимости от предыстории проблемы и фактической ситуации или требований было принято решение о применении различных рекомендательных методов преобразования.
  • Гибрид: в то же время используются несколько технологий рекомендаций, чтобы дать несколько результатов рекомендаций, чтобы предоставить пользователям справку.
  • Комбинация функций. Комбинация функций из разных источников данных рекомендаций используется другим алгоритмом рекомендаций.
  • Каскадирование: сначала используйте метод рекомендации для получения приблизительного результата рекомендации, а второй метод рекомендации дополнительно дает более точную рекомендацию на основе результата рекомендации.
  • Расширение функций: один метод создает дополнительную информацию о функциях, встроенную во входные данные о функциях другого метода рекомендаций.
  • Метауровень: модели, созданные одним методом рекомендаций, используются в качестве входных данных для другого метода рекомендаций.

Приложение 5. Общие алгоритмы рекомендаций

Автор: MysTic (micro-signal mystic326531548), 3 года опыта работы менеджером по продукту, глубокое исследование требований, исследование приложений и данных. Найдите яму, координаты Пекина. Я все еще ищу яму, и я думаю, что моя цитата немного дороговата, но я действительно могу делать вещи. Доброжелательный видит доброжелательного, а мудрый видит мудрость. Если вы не можете найти яму, просто продолжайте писать сухо товары и сделать исследования.Все в порядке, если босс увидит, надеюсь, чтобы войти в контакт.


Спасибо за оригинал


Старые утюги обращают внимание на публичный аккаунт WeChat «Dahua WEB Development», двумерный код ↓ для поощрения и обмена знаниями!