TKDE2018: анализ и прогнозное моделирование раннего покупательского поведения

машинное обучение искусственный интеллект

предисловие: Эта статья о характеристике и прогнозировании раннего покупательского поведения на веб-сайтах электронной коммерции.Это наша работа, опубликованная в TKDE в 2018 г. Если у вас есть какие-либо вопросы, пожалуйста, свяжитесь со мной и укажите источник.

автор этой статьи: Бай Тин, аспирант Китайского университета Жэньминь, Пекинская ключевая лаборатория методов управления и анализа больших данных.

Направление исследования: система рекомендаций, глубокое обучение, акцент на применение глубокого обучения в модели рекомендаций, моделирование и применение анализа поведения пользователей электронной коммерции.

Эта статья была впервые опубликована в Zhihu [Станция интеллектуальной разведки RUC], при необходимости перепечатки просьба сообщить об этом автору и указать адрес данной рубрики

бумага: Характеристика и прогнозирование первых рецензентов для эффективного маркетинга продуктов на веб-сайтах электронной коммерции (TKDE'18).

автор: ting Bay, Wayne X in Zhao, yulan he, J Ian-Y u NN IE, J i-Ron Gwen.

См. личную домашнюю страницу для документов и слайдов:ТБ ребенок.GitHub.IO/Baoting_Eat…

Мотивация к написанию

Веб-сайт электронной коммерции — это взаимозависимая экосистема электронной коммерции, состоящая из двух частей: пользователей и продуктов. Когда пользователи покупают товары, они часто придают большое значение информации в отзывах. Продажи продуктов также следуют эффекту Мэтью: чем больше отзывов о продукте, тем он лучше и тем больше вероятность того, что его купят. В этой статье анализируются и прогнозируются ранние рецензенты продукта, решается проблема холодного запуска новых продуктов и помогает более поздним пользователям принимать решения о покупке. В статье впервые дается метод классификации и определение ранних рецензентов, а также количественно анализируются атрибуты ранних рецензентов, рейтинги продуктов, полезность их обзоров и длина текстов, а также находит теорию инновационной коммуникации в социология веб-сайтов электронной коммерции. Предлагается модель прогнозирования первых покупателей с целью обеспечения теоретической поддержки продвижения новых продуктов в электронной коммерции и помощи пользователям в принятии решений о покупке.

(Примечание: пользователи обычно размещают комментарии только после покупки продукта. Поскольку мы можем получить только данные комментариев, первые комментаторы в следующем тексте также могут быть поняты как первые покупатели; в отличие от персонализированных рекомендаций пользователей, в этом документе основное внимание уделяется изучению электронных Экология коммерции Еще одна важная часть системы: продукты, найти первых рецензентов для продуктов, а затем помочь пользователям принять решение о покупке)

Исследования ранних рецензентов в настоящее время имеют важные последствия для сайтов электронной коммерции:

Продавцы Amazon обнаружили важность ранних обзоров покупателей при запуске новых продуктов и предложили Amazon Vine побудить некоторых первых пользователей писать подробные и исчерпывающие обзоры продуктов, предлагая бесплатные пробные версии продуктов. Чтобы привести еще один пример, близкий к жизни, когда вы делаете покупки на Taobao и получаете товары, вы часто будете получать письмо о «вознаграждении кэшбэка» от продавцов, особенно тех, которые только начинают, или продукты, которые они запустили, не являются, комментируя. Эти продавцы отказываются от части своей прибыли в обмен на качественные отзывы первых покупателей, тем самым привлекая больше людей к покупкам.

Все приведенные выше примеры иллюстрируют проблему.На веб-сайте электронной коммерции очень важны комментарии первых покупателей о продуктах, которые повлияют на принятие решений последующими покупателями, тем самым влияя на все продажи продуктов и рыночные интересы электронной коммерции. -коммерция. В этой статье проводится качественный и количественный анализ первых рецензентов двух наборов данных электронной коммерции, Amazon и Yelp, и, наконец, предлагается модель прогнозирования.

2. Определение и анализ первых рецензентов

  1. Способы определения первых рецензентов
  • Определение элемента с полным жизненным циклом
  • удалить спам-пользователей

Скорее всего, будут пользователи спама, которые пролистывают комментарии в коммерческих целях. Мы используем три метода для фильтрации пользователей спама: на основе предвзятости комментариев пользователей (например, высоких оценок), на основе атрибутов текста комментария (таких как повторение текста, и т. д.), в зависимости от времени комментариев (например, несколько комментариев за короткий период времени).

  • Разделите первых рецензентов в соответствии с теорией распространения инноваций Роджера.

2. Статистический анализ ранних рецензентов

  • Количество раз, когда пользователи выступали в качестве первых рецензентов, и количество пользователей, представляющих степенное распределение.
  • Энтузиазм пользователей выступать в качестве первых рецензентов различается в разных категориях продуктов: например, в продуктах для матерей и младенцев пользователи более осторожны и в среднем меньше выступают в качестве первых рецензентов, в то время как в категориях моды пользователи чаще выступают в качестве ранних рецензентов. Комментарий от.

3. Количественный анализ атрибутов комментариев первых рецензентов.

  • Ранние рецензенты, как правило, дают высокие оценки в обзорах.
  • Комментарии первых рецензентов более полезны для более поздних пользователей.

Вышеуказанные два количественных анализа нашли теоретическую поддержку у социолога Роджера (теория диффузии инноваций), который подтверждает, что веб-сайты электронной коммерции также соответствуют закону инноваций в социологии:

  • Principle about personality variables: Ранние пользователи более благосклонно относятся к изменениям, чем более поздние; (возьмите оценки первых рецензентов как отношение к новым вещам, а ранние рецензенты имеют более высокие оценки новых продуктов, т. е. имеют более позитивное отношение)
  • Principle about communication behavior: Ранние последователи имеют более высокую степень лидерства в мнении, чем более поздние последователи (рассмотрите полезность комментариев первых комментаторов как ориентацию новых вещей, а мнения первых комментаторов о товарах более полезны, т. ведущий)

4. Влияние первых рецензентов на продажи продукта

  • Более высокие оценки от первых рецензентов ведут к увеличению продаж
  • Ранние рецензенты оценивают продукт положительно (больше, чем значение рейтинга в СМИ), и обзор считается полезным, чем больше объем продаж продукта; отрицательный балл для продукта и считается полезным, тем меньше продукт продается.

3. Прогностические модели для первых рецензентов

  1. определение проблемы

Учитывая продукт p и набор пользователей-кандидатов, задача прогнозирования раннего рецензента состоит в том, чтобы предсказать пользователей tok-K, которые оставят самые ранние комментарии, что, по сути, является проблемой ранжирования всех пользователей.

Challenge: Проблема холодного запуска товара

"Мы решаем проблему первых покупателей продуктов. Когда выпускается новый продукт, почти нет комментариев пользователей о покупках. Далее мы представим нашу модель прогнозирования для решения проблемы холодного запуска продукта.

2. Модель прогнозирования: наша модель встраивания на основе маржи(MERM)

  • Функция подсчета очков

Учитывая продукт p, функция оценки раннего комментария пользователя u (оценка раннего индекса) для продукта p может быть описана как:

Ранжируя рейтинговые функции всех пользователей, можно получить результаты предсказания первых K самых ранних рецензентов.

  • обучение модели

Принята конкурентная точка зрения на задачу ранжирования.Для парных u и u' (время проверки u раньше, чем у u') мы гарантируем, что значение оценки раннего рассмотрения S(p, u)> S( р, у').

Вектор продукта не контролируется doc2vec с метками категорий, что может решить проблему отсутствия пользовательских данных при холодном запуске продукта.Вектор пользователя является параметром обучения в процессе обучения.Наконец, учитывая новый продукт и пользователя, мы можем заставьте его действовать как ранний этап. Прокомментируйте это значение рейтинга, используемое в качестве топ-K рейтинга.

Схема алгоритма выглядит следующим образом:

2. Baselines and comparison

3. Показатели оценки

  • Коэффициент перекрытия на ранге k (OR@k): Частота повторения между лучшими K предсказанными пользователями и лучшими K пользователями в реальном наборе.
  • Соотношение попаданий на ранге k (Hit@k): предскажите количество попаданий топ-K реальных ранних покупателей.
  • Отношение пар правильного сравнения (RCCP): попарное сравнение большей точности

4. Набор данных и экспериментальные результаты

Мы выбрали два набора данных, Amazon и Yelp, Статистика данных и экспериментальные результаты следующие:

Написано в конце: "Эта работа - самая длинная, которую я сделал. Модель относительно проста, потому что это была работа двухлетней давности. Период рецензирования журнала составляет почти год, и он задерживается до сих пор (в процесс ожидания подачи рукописи, новая модель не обновлялась, даже если она сделана хорошо) У меня есть две мысли, которыми я надеюсь поделиться с вами:

  1. В экосистеме электронной коммерции большая часть исследований сосредоточена на потребителях, дающих персонализированные рекомендации для пользователей, в то время как для производителей в электронной коммерции: продавцам и продуктам уделяется мало внимания. нуждающимися пользователями (одним из способов является платное продвижение) также должно быть направлением исследований для содействия лучшему симбиотическому развитию экосистемы электронной коммерции.
  2. Эта статья представляет собой аналитическую статью, в которой основное внимание уделяется качественному и количественному анализу веб-сайтов электронной коммерции, характеристикам, поведению и влиянию первых покупателей, определению проблемы в аналитической статье, рассмотрению каждого пункта анализа и, наконец, Говоря в полной истории, может потребоваться больше времени, чем чистая модель, и я надеюсь, что ее можно будет использовать в качестве справочной информации для всех.