Representation Learning for Predicting Customer Orders
Введение
Прогнозирование будущих заказов клиентов имеет важное справочное значение для розничных продавцов при принятии многих ключевых операционных решений.Прогнозировать распределение будущих заказов, то есть возможные подмножества товаров и их частоты (вероятности), которые являются важными данными для принятия таких решений, как выбор классификации передовых складов и оценка пропускной способности центров доставки.
Изучение информации о распределении заказов сильно отличается от прогнозирования следующей корзины, прогнозирования временного набора и анализа частых наборов, где цель состоит в том, чтобы описать агрегацию рынка в определенный период Полная картина поведения, в то время как прогнозирование следующей корзины и прогнозирование набора времени ориентация на поведение конкретного покупателя при следующей покупке, независимо от времени покупки, кроме того, частый майнинг сетов дает только высокочастотные сеты, но не дает точной вероятности майнинга сетов информации, что не может удовлетворить потребности бизнес-приложений .
Из-за резкого увеличения количества комбинаций возможных типов ордеров изучение распределения ордеров на основе данных сопряжено с рядом серьезных проблем, в том числе:
- Данные порядка, используемые для изучения распределения, обычноредкий, где количество наблюдаемых ордеров намного меньше, чем количество возможных типов ордеров, а многие возможные типы ордеров не отображаются в наборе данных или появляются только один раз.
- Полученное распределение порядка должно отражатьКорреляция, потому что категория продукта, к которой относится заказ, часто не является независимой.
- Чтобы использовать распределение заказов в вышеупомянутых последующих приложениях, часто необходимо генерировать множествослучайный порядок. Следовательно, также необходимо разработать эффективные методы выборки случайных порядков в соответствии с изученным распределением порядков.
Прогноз будущих заказов
Прежде чем внедрять прогностическую модель, сначала изучите распределение порядка в известном наборе данных.Как спрогнозировать будущие заказы, исходя из предпосылки
символ
использоватьПредставляет собой набор товарных категорий,Указывает тип заказа, которыйПодмножество всех возможных типов ордеров с количеством.
Предполагая, что распределение заказов постоянно в течение определенного периода времени (это предпосылка возможности прогнозировать будущие заказы с помощью исторических заказов), предположимраспределение порядка, полученное из исторических данных,Указывает, что случайный порядок принадлежитвероятности в типах ордеров, используяПредставляет истинное распределение последних заказов.
использоватьПредставляет количество заказов в будущем периоде времени, предполагая, чтодано (поскольку предсказаниеГораздо проще, чем предсказывать конкретный порядок). использовать N-мерный целочисленный векторпредставлять наземные истинные будущие заказы,означает первыйКоличество заказов основных правд для заказов классов., представляет изученный порядок, очевидно,Построение обычно основано на изученном распределении порядка.
Метрики оценки
Цель состоит в том, чтобы делать прогнозы.как можно ближе, поэтому необходимо измерить разницу между ними.overlap(что можно понимать как сходство) можно рассчитать как:
так как, приведенную выше формулу можно упростить следующим образом:
видимая минимизацияэквивалентно максимизации.
Алгоритм максимизации перекрытия
Определить вероятность,в, который распределяется в соответствии с порядком истинности основанияЗаказ генерируется случайным образом, поэтому вы получаете:
первоеПредельная вероятность количества наземных истинных ордеров в каждом типе ордеров равна:
знать,Повторное биномиальное распределение. Прогноз для определенного заказа,имеют:
здесьопределяется в соответствии сгенерироватьВремяожидаемое значение. когдазакогда среднее геометрическоеокругление),достигает своего минимального значения.
Observation 1: когда установленочас,значениепоймали и,близко к своему минимальному значению, его геометрический смыслимежду- Ожидание расстояния.
пройти черезObservation 1Ранее упомянутая максимизация может быть легко найденаНа самом деле, это установить. На практике, однако, распределение истинного порядка не может быть известно., из последних исторических данных можно узнать только одно распределение ордеров, затем используйтестроить, и надеюсьикак можно ближе,Также известен как прокси-распределение ордеров.
Алгоритм 1 показывает использование прокси-распределения ордеровстроитьпроцесс.
модель генеративного отбора
В этом разделе предлагается генеративная модель выбора, которая может эффективно генерировать случайные заказы. Модель встраивает категории элементов в евклидово пространство и строит граф категорий элементов на основе вложения. На графе категорий элементов выполняется случайное блуждание для создания случайных порядков. Заказ.
Встраивание категорий продуктов и карта категорий продуктов
Набор заданных категорий товарови несколько коллекций исторических заказов,заПодмножество. Категорияпредставлен как- размерный вектор, называетсяВстраивание элемента.
Для построения графа категорий вводятся две воображаемые вершины, исходный узели стоковые узлыи встроенныйвершины. Граф категорий является ориентированным графом,содержит отприбыть,отприбыть(кроме петель), изприбытьсо всех сторон ина петле, аДиаграмма категорий показана на рисунке 2 (а):
Случайное блуждание для генерации случайных порядков
Моделирование генеративного процесса выбора клиентов как процесса случайного блуждания на основе графа категорий: из исходных узловСначала клиенты могут перемещаться только по ребрам за пределами текущей вершины и в конечном итоге попадут в ловушку в узле стока.В (см. последний цикл на рис. 2) заказ клиента, полученный таким образом, представляет собой набор продуктов, которые он посещает.
После формализации случайное блуждание можно рассматривать как марковский процесс., набор посещенных категорий. Кроме того, требуется матрица переходных вероятностей, в матрицеозначает отперейти квероятность, текстустанавливается следующим образом:
Указывает, что клиент покупает категориюПрекратить ли покупать после, определите набор параметров. использоватьдля измерения категориикорреляция, используяфункция стандартизации категорий на карте категорийвзаимосвязь с другими узлами. Заказы, случайно сгенерированные этой моделью, определяются как,использоватьпредставлять категорию заказав случайном порядкеВероятность.
тренировочный процесс
В этом разделе, чтобы изучить представления вершин, мы сначала сформулируем процесс обучения как задачу оценки максимального правдоподобия. Точный расчет стохастического градиента показан в Алгоритме 2: