Теория и практика извлечения информации о поведении пользователей глобальных данных

искусственный интеллект Большие данные

I. Обзор

1.1 Каково поведение пользователей глобальных данных

   Каково поведение пользователей глобальных данных? Давайте сначала поговорим о предыстории этого проекта: глобальный проект подключения данных о поведении пользователей, целью которого является подключение данных о поведении пользователей в TAL Group; охватывает внешние бизнес-отделы, такие как: онлайн-школа, Peiyou, Xiaohou (оригинал), Zhikang , Интегрируйте данные о поведении пользователей из 5 бизнес-подразделений из разных измерений, таких как студенты, курсы, классы, дисциплины, семестры учебного года, лекции, учебные точки, учителя, классы и т. д., чтобы расширить возможности проектов приложений верхнего уровня. CDP, будущий канбан, алгоритмическая модель RFM, словари отраслевых рынков, глобальные пулы функций и другие сценарии. Предыдущая модель в основном основана на спросе и общем отсутствии основных осадков, но также обнаружила некоторые очевидные проблемы (спрос нелегко расширить, качество данных невысокое, качество данных трудно определить, данные о поведении недостаточно полны). ).Исходя из этих проблем, ожидается, что он будет поддерживать верхний уровень.В то же время спрос, он также может руководствоваться спросом, начиная с основного бизнеса и источников данных, охватывая больше передовых бизнес-отделов, систематически сортируя выявлять и строить больше ключевых узлов в жизненном цикле поведения пользователей, а также соединять глобальные данные о поведении пользователей.

Несложно извлечь из фона проекта глобальные данные: интегрировать данные каждого бизнес-подразделения.

, объектом интеграции является существующее пользовательское поведение каждого бизнес-подразделения, например: покупка курса, в онлайн-школе это может называться: отзыв/пробуждение/обновление/расширение, в Чжикан это может называться оплата заказа, в либу это может называться: покупка, необходимость исправления Синонимичные действия пользователей с разными именами действительно проходят (одинаковые имена также являются синонимами)
image0.png

1.2 Зачем вытягивать глобальное поведение пользователей

image1.png

  • снизить стоимость

  • Расширение возможностей технологий

  • Интеграция данных

  • Расширение прав и возможностей бизнеса

2. Архитектурный дизайн

image2.png
Общая архитектура разделена на три уровня: уровень источника данных, уровень извлечения данных и моделирования, уровень приложения данных.

  1. Уровень источника данных: этот уровень является базовым источником данных для глобальной связи, все они получены из существующего поведения пользователей каждого бизнес-подразделения;
  2. Слой извлечения данных и моделирования: этот слой разделен на две части: слой извлечения и моделирования.По сути, это все еще моделирование, но существующее поведение расчесывания делится на частное и общее, и на этой основе выполняется моделирование;
  3. Уровень приложения данных: этот уровень является верхней прикладной частью глобального домена, например: будущие портреты, боевые карты, глобальные функции и другие различные проекты используют данные, которые были извлечены из глобального домена, чтобы обеспечить более широкое использование редактирования;

3. Процесс строительства

Чтобы понять, что такое глобальные данные и почему необходимо внедрять глобальные данные, следующим шагом будет разобраться в существующем поведении пользователей каждого бизнес-подразделения.Общее поведение каждого бизнес-подразделения отсортировано по: 268, с использованием графической формы. , и отмечая каждое поведение на графике , который представляет собой жизненный цикл пользовательского поведения подразделения

3.1 Жизненный цикл пользовательского поведения

A: Поведенческий жизненный цикл обезьян.
image01.png
Количество текущих поведенческих жизненных циклов маленьких обезьян: 31
B: Жизненный цикл мотивационного поведения
image02.png
Количество существующих жизненных циклов поведения Libu: 34
C: Жизненный цикл поведения в онлайн-школе
image03.png
Количество существующих жизненных циклов поведения в онлайн-школах: 85
D: жизненный цикл поведения пейю
image04.png
Количество существующих жизненных циклов поведения Peiyou: 99
E: Жизненный цикл поведения Чжикан
image05.png

Количество существующих жизненных циклов поведения Чжикан: 57

3.2 Частное и публичное поведение

Основная работа, описанная выше, заключается в интеграции поведения при расчесывании, чтобы развивающиеся учащиеся имели общее представление о поведении пользователей во всей области, понимали предысторию и ценность этого проекта, а также подробно классифицировали собранное поведение. делится на частное поведение и публичное поведение.Каждый учитель отвечает за различные домены данных.Необходимо понимать текущее поведение 5 бизнес-единиц.Из делового знакомства и пред- и пост-зависимости каждой модели, ее основная функция состоит в том, чтобы сделать текущее поведение более полным.Расширенные функции , вот несколько скриншотов частного и общедоступного поведения:

1. Личное поведение

image001.png

2. Публичное поведение

image002.png

3.3 Особый стиль игры

Вся вышеперечисленная работа заключается в том, чтобы разобраться в глобальном поведении пользователей каждого бизнес-подразделения. Что же делать с поведением?

image2021426_112443.png

  1. Снизу вверх, в соответствии со стандартизированным шаблоном спроса на сбор, предоставленным хранилищем данных, спрос на следующий месяц собирается регулярно (в конце месяца) для поддержки горизонтальных проектов в центре обработки данных.

  2. Сверху вниз разберите поведение пользователей каждого бизнес-подразделения в будущем, отметьте основное поведение пользователей и изучите данные в сочетании с бизнесом.

  3. Через 1 и 2 можно высадить продольно:
    : Модель осадков: когда есть спрос, бизнес-процесс разрабатывается в соответствии со спросом, а требования проекта поддерживаются путем объединения параметров согласованности и фактов, и из него резюмируется модель осадков; когда нет спрос, развитие осуществляется обычно в соответствии с основным поведением сортировки;
    : Предварительный бизнес: при составлении требований вам необходимо иметь определенное представление об определенном бизнесе.После разработки модели вам необходимо обобщить и ускорить текущий бизнес, чтобы не наступать на ямы в будущем;
    : метод осаждения: через 1 и 2 общая практика (техническая структура и процесс) глобального развития ускоряется, а статьи TTC сортируются и передаются вам;
    Во всем игровом процессе есть два важных момента:
    1. Для действия

    Его нужно запускать с DWD каждого бизнес-отдела, DWD — это детальный слой после очистки.

    , что также полезно для последующего расширения модели;
    2. При сверке акта

    Поля модели должны быть помечены в соответствии с теорией oneData, которые являются модификаторами, которые являются атомарными индикаторами, которые являются периодами времени и т. д. Только когда эта маркировка ясна, различные функции могут быть получены автоматически.

    ;
    Конкретная модель выглядит следующим образом:
    image004.png

    Период времени, модификаторы и атомарные индикаторы четко обозначены в дизайне модели.

PS: В следующих двух статьях мы сосредоточимся на обсуждении с вами oneData, который также является ядром нашего хранилища данных.

3.4 Матрица шины

image005.png

  • Понимать модель, соответствующую бизнес-процессу и предметной области, к которой он принадлежит;
  • Понимать бизнес-единицы, охватываемые бизнес-процессом;
  • Понимать измерения, поддерживаемые бизнес-процессом;
    Матрицу шины см. в документации Zhiyinlou:Зубы-doc-graphite.justinlou.com/sheets/DP КП…

3.5 Трудности в глобальном строительстве

image007.png

4. Включение бизнеса

  1. Пользовательский график: извлекайте ценные функции с помощью разработанных автоматических функций, которые могут быстро предоставить базовый источник данных для функциональной платформы.
  2. Групповой CDP: предоставляет полученные данные о поведении пользователей, которые можно быстро рассчитать и снизить затраты на связь и вычисления.
  3. Канбан будущего: предоставьте модели, необходимые для комплексного запроса данных, чтобы повысить эффективность разработки.