задний план
В интернет-продуктах анализ поведения пользователей обычно относится к поиску и обнаружению полезной информации с помощью статистики и анализа различных поведенческих событий пользователей в продуктах, чтобы обеспечить значимую основу для разработки продукта и стратегии эксплуатации.
Как правило, анализ поведения пользователей включает в себя следующие процессы:Захоронение данных -> сбор данных -> очистка данных -> представление данных
В Xianyu у нас есть большое количество данных о скрытых точках пользователей, которые содержат много информации, но редко используются эффективно:
-
Низкий коэффициент использования: количество данных скрытых точек велико и очень беспорядочно, обычно только в определенном сценарии, будут учитываться некоторые конкретные данные скрытых точек.
-
Данные слишком «оригинальны»: обычно скрытыми точками являются экспозиция определенной страницы, определенное событие клика и т. д. Эти события имеют «низкую» размерность, и сами по себе эти скрытые точки не могут выражать некоторые «высокоразмерные» события, такие как как "нажмите для поиска". поле -> ввод текста -> вход на страницу результатов поиска -> нажмите на результат поиска" - это полный поиск товара.
Итак, можем ли мы для этих исходных скрытых точек абстрагировать многомерные данные о поведении пользователей с помощью алгоритмической обработки и использовать эти данные для извлечения полезной информации?
В этой статье мы поделимся некоторыми попытками и приложениями Xianyu, использующими «последовательный анализ шаблонов» в анализе поведения пользователей.
что такое поведение пользователя
Как правило, мы определяем поведение пользователя как последовательность, образованную серией поведенческих событий. Это определение имеет разную интерпретацию на разных «степенях детализации»: например, с грубой точки зрения «поиск товаров» -> «чат» -> «заказ» — это поведение пользователя, а «поиск товаров» — это поведение пользователя. событие поведения.
Но с более детальной точки зрения «поиск продуктов» включает в себя несколько более мелких событий, таких как «щелкнуть поле поиска -> ввести текст -> нажать кнопку поиска -> просмотреть результаты поиска» и т. д. Эти события можно также определить как событие поведения, когда «поиск продукта» становится поведением пользователя.
Поэтому, чтобы анализировать поведение пользователей, мы должны сначала увидеть, из какого измерения мы анализируем.
В этой статье мы определяем поведенческие события как два типа событий: «переход на страницу» и «нажатие кнопки», а поведение пользователя — это последовательность «множественных поведенческих событий», соединенных в хронологическом порядке. В соответствии с формой данных каждый «переход на страницу» соответствует скрытой точке, и каждый «щелчок кнопки» также соответствует скрытой точке.
Таким образом, анализ поведения пользователей фактически превратился во встроенный анализ последовательности точек.
Что такое последовательный майнинг паттернов
Последовательный анализ шаблонов — это своего рода алгоритм анализа ассоциаций в интеллектуальном анализе данных, Если говорить простыми словами, это:
Из большого количества данных последовательностей извлекаются часто встречающиеся «подпоследовательности».
Взяв в качестве примера наши данные скрытых точек, данные скрытых точек, сгенерированные пользователем, могут получить серию последовательностей скрытых точек (от скрытой точки 1 до скрытой точки 7 на приведенном выше рисунке) в соответствии с временным расположением и функцией последовательного шаблона. майнинг заключается в получении данных от большого количества пользователей. В последовательности скрытых точек найдите скрытый паттерн:
Скрытая точка 2 -> спрятанная точка 4 -> спрятанная точка 7 (то есть большое количество пользователей имеют модель поведения «скрытая точка 2 -> спрятанная точка 4 -> спрятанная точка 7», могут быть и другие спрятанные точки в середина).
Используя последовательный анализ паттернов, мы можем обнаружить некоторые потенциально ценные паттерны поведения пользователей из пользовательских скрытых данных.
Раскройте неизвестное поведение
Используя последовательный анализ шаблонов, мы можем «обобщать» и «обобщать» поведенческие общие черты толпы. Если мы сначала выполним неконтролируемую кластеризацию в толпе на основе поведенческих данных, а затем выполним последовательный анализ поведения в кластеризованных толпах, мы можем " Обобщите «поведенческие характеристики» населения.
Процесс кластеризации поведения примерно выглядит следующим образом: Заинтересованные друзья могут обратиться к соответствующей информации, которая здесь не будет раскрываться:
Здесь неконтролируемая кластеризация может получить разные популяции в соответствии с присущими ей поведенческими характеристиками. Поскольку заранее не определено поведение, могут быть найдены некоторые ранее неизвестные группы, но в то же время есть недостаток, заключающийся в плохой интерпретируемости результатов кластеризации, и неизвестно, почему кластеризованные группы группируются вместе.
Интеллектуальный анализ поведенческих последовательностей может просто «объяснить» публичную поведенческую последовательность популяции, поэтому сочетание кластеризации и анализа паттернов последовательности может не только обнаружить различные популяции, но и объяснить «причины» классификации этих популяций.
Случай:Откройте для себя неизвестных «черных продуктов» людей
Используя приведенную выше схему, мы проанализировали пользовательские закопанные точки Xianyu и обнаружили, что среди сгруппированных толп есть толпа, последовательность поведения которой следующая:
"Страница результатов поиска товаров->Открыть продукт->Нажмите для чата->Отправить файл->Вернуться на страницу результатов поиска товаров->Открыть продукт->Нажмите для чата->Отправить файл"
Выборка и проверка файлов, отправленных этой группой людей, показала, что все они являются рекламными видеороликами, то есть это взломанные аккаунты, постоянно рассылающие рекламные видеоролики другим пользователям, и эти хакерские действия являются нашими оригинальными «неизвестными» (без необходимо заранее знать, что такое поведение существует).
Этот метод имеет следующие преимущества по сравнению с первоначальным типом предотвращения и контроля производства сажи «ловушка утечки»:
-
Без предварительных настроек опыта вы можете быстро обнаруживать новые поведенческие модели черного производства на основе данных, не дожидаясь широкомасштабных отзывов пользователей, чтобы делать ловушки.
-
Шаблон поведения, абстрагированный алгоритмом, будет более точным, чем ручное «резюме». (Большая часть первоначального предотвращения и контроля основана на отзывах пользователей, а затем вручную наблюдают за поведением этих людей и используют правила для выявления и сопоставления этого поведения)
Откройте для себя больше когорт
Предположим, у нас уже есть выборка определенной совокупности (например, набор аккаунтов, созданных черными), тогда как найти большую партию подобных выборок через эту партию небольших выборок?
Мы можем добывать образцы последовательности поведения этих групп с помощью последовательного анализа образцов, а затем использовать эти последовательные образцы для сопоставления всех групп, чтобы мы могли получить более широкий круг людей, которые соответствуют этому образцу поведения.
Кейс: Найдите больше учетных записей «черного продукта», которые преследуют пользователей
В Сяньюй есть много зрелых программ по предотвращению и контролю над черным производством, и эти программы будут экспортировать много чернокожих людей.
Один из людей должен разместить рекламу в личном профиле, затем заменить аватар на картинку с текстом «Посмотрите на мой профиль» и, наконец, постоянно отправлять смайлики другим пользователям, чтобы привлечь пользователей к просмотру рекламы в профиле.
Эта популяция производится по исходной стратегии, и в среднем около1800Об аккаунте черного продукта.
Мы используем приведенную выше схему для анализа публичного поведения этой группы:
«Искать продукты — нажимать на продукты — начинать чат — отправлять сообщения — нажимать на личную домашнюю страницу — следить за пользователями»
Благодаря этому шаблону поведения мы сопоставили всех пользователей и получили большую группу. Эти группы людей были проверены как аккаунты, созданные черными.
После перекрестного сравнения и ручной проверки используйте сопоставление поведенческих моделей:
-
произвел больше, чем первоначальная стратегия57%Аккаунт черного продукта.
-
Точность сгенерированных учетных записей черного производства достигает99%
Обеспечьте больше перспективы данных
Изучая общедоступные последовательности поведения всех пользователей, мы можем получить список последовательностей поведения. С помощью этой таблицы мы можем получить совершенно новые данные, подсчитав, сколько раз каждый пользователь встречает эти данные о поведении, то есть «Поведение пользователя». Таблица умножения "". Таким образом, мы можем получить больше информации с точки зрения количества различных действий.
(В раскопанной таблице поведения, из-за разнообразия комбинаций поведения, будет много повторяющихся последовательностей поведения в реальном смысле. Метод анализа основных компонентов PCA можно использовать для фильтрации повторяющихся последовательностей поведения)
Например, можно сравнить различия в количестве этих действий у разных групп пользователей (id — это последовательность действий, например 4633):
Конечно, такие данные необходимо дополнительно исследовать, чтобы получить реальную полезную информацию. Существуют также разные способы их использования для разных предприятий и задач. Здесь мы просто идея. Перспектива данных для извлечения полезной информации для бизнес.
больше думать
Конечно, вышеизложенное разделяет только наши попытки использовать последовательный анализ паттернов в анализе поведения пользователей.Помимо этих методов, есть и другие сценарии, которые можно применить.
Например, в дополнение к упомянутому выше крупномасштабному анализу поведения пользователей последовательный анализ шаблонов также может использоваться в более мелких сценариях. Например, проанализируйте, есть ли какие-то определенные шаблоны поведения пользователя на одной странице (поведение в это время можно определить как более подробные операции, такие как щелчок, скольжение, длительное нажатие и т. д.), чтобы в дальнейшем помочь оптимизировать пользовательский опыт и поиск аномалий.
Для анализа поведения пользователей и последовательного извлечения паттернов случай, описанный в этой статье, — лишь вершина айсберга, и я надеюсь, что он может послужить руководством.
Команда Xianyu является лидером отрасли в области новой технологии интеграции Flutter + Dart FaaS с интерфейсом и сервером прямо сейчас!Клиент/сервер java/архитектура/внешний интерфейс/инженер по качествуДля социального найма создайте базу Hangzhou Alibaba Xixi Park, чтобы вместе создавать продукты сообщества с пространством для творчества, делать углубленные проекты с открытым исходным кодом на высшем уровне и расширять границы технологий для достижения максимального!
*Отправьте свое резюме Сяо Сяньюй→guicai.gxy@alibaba-inc.com
Проекты с открытым исходным кодом, Прямые попадания на саммит, Ключевые выводы, Углубленная интерпретация Пожалуйста, ищите технологию простаивающей рыбы