Алгоритм ФОШУ

сбор данных

На лицевой стороне: «На полке» относится к цикличности, то есть мороженое продается не так много зимой, но хорошо продается летом. Каждый товар будет иметь показатели продаж в разные периоды, что является проблемой исследований в этой области. на полке относится к первому циклу, второму циклу, третьему циклу..., между каждым циклом нет никакой последовательности, если набор элементов встречается в нескольких циклах, то мы записываем его как (X, 1), (X, 2)

FOSHU: более быстрый майнинг высокополезных предметов на полке — с отрицательной прибылью или без нее

Образец

Transaction Database

transaction database

External utility of Item

external utility

определение

  • набор предметовI={x1,x2,,xn}I = \{x_1, x_2, \dots, x_{\rm n}\}, набор данныхD={T1,T2,,Tj}D = \{T_1, T_2, \dots, T_{\rm j}\}TiеDT_{\rm i} \in Dназываются элементами транзакций, каждый элемент транзакций имеет уникальный номерTIDTID, каждый предмет имеет свое собственное уникальное внешнее значение полезностиp(xi)p(x_{\rm i})(Его можно рассматривать как прибыль от одного продукта, которая может быть положительной или отрицательной), каждая статья может иметь разные значения внутренней полезности в разных наборах транзакций.q(xi,Tj)q(x_{\rm i}, T_{\rm j})(Его можно рассматривать как количество купленных товаров, которое может быть только положительным числом)

  • В частности, в данной работе использованиеPEPEТакой набор положительных чисел используется как период времени, и каждый элемент транзакции связан с периодом времени.pt(Tj)еPEpt(T_{\rm j}) \in PE, что означает, что набор транзакций существует в течение этих периодов времени

  • элемент (набор) значение полезности (utility of item(set)): в позиции транзакцииTjT_{\rm j}, для предметаxiеIx_{\rm i} \in I, его значение полезности рассчитывается какu(i,Tj)=q(i,Tj×p(i))u(i, T_{\rm j}) = q(i, T_{\rm j} \times p(i)); Аналогично для наборов элементовXX, его формула расчетаu(X,Tj)=xiеXIxiеTju(xi,Tj)u(X, T_{\rm j}) = \sum_{x_{\rm i} \in X \subseteq I \land x_{\rm i} \in T_{\rm j}}u(x_{\rm i}, T_{\rm j}). Стоимость полезности может использоваться для измерения важности предмета (или прибыли в случае товара).

  • Период времени набора предметов: относится к моменту продажи предмета, определяемому какpi(X)={pt(Tj)TjеDXTj}pi(X) = \{pt(T_{\rm j}) | T_{\rm j} \in D \land X \subseteq T_{\rm j}\}

  • в определенное времяhеpi(X)h \in pi(X)внутри, наборы предметовXXЗначение полезности определяется какu(X,h=h=pi(Tj)u(X,Tj)u(X, h = \sum_{h = pi(T_{\rm j})}u(X, T_{\rm j}), в частности, вычислениеXXв наборе данных -+DDФормула суммы значений полезности за все периоды времени существования в определяется какu(X)=hеpi(X)u(X,h)u(X) = \sum_{h \in pi(X)u(X, h)}

    Например: вTable 1.В мы можем вычислить наборы элементов{c,e}\{c, e\}Все они появляются в циклах 1, 2, 3 и появляются дважды в цикле 2, поэтому можно получить следующий процесс расчета.u({c,e})=u({c,e},1)+u({c,e},2)+u({c,e},2)+u({c,e},3)u(\{c, e\}) = u(\{c, e\}, 1) + u(\{c, e\}, 2) + u(\{c, e\}, 2) + u(\{c, e\}, 3)= 12 + 2 + 6 + 11 = 31 (в периоде 2 есть два разных элемента транзакции, поэтому полезность расчета набора элементов различна)

  • Полезность предмета транзакции (transaction utility) элемент транзакции содержит множество различных элементов, и сумма значений полезности этих элементов является значением полезности элемента транзакции (TU),TUможно использовать для расчетаTWU, определяемый следующим образом:TU(Tj)=xiеTju(xi,Tj)TU(T_{\rm j}) = \sum_{x_{\rm i} \in T_{\rm j}}u(x_{\rm i}, T_{\rm j})Затем для наборов элементовXXЗначение полезности за все периоды определяется какto(X)=hеpi(X)h=pt(Tj)TU(Tj)to(X) = \sum_{h \in pi(X) \land h = pt(T_{\rm j})}TU(T_{\rm j})Его == значение относительной полезности (относительная полезность) == определяется какru(X)=u(X)/to(X)ru(X) = u(X) / to(X) | if to(X)0to(X) \not = 0Значение относительной полезности отражает долю прибыли (убытка), генерируемого набором товаров, в целом, что может указывать на эффективность продаж различных наборов товаров и облегчать розничным торговцам сортировку товаров на полках в разные периоды. может быть получен:

    Teansaction Utility

  • набор товаров с высоким запасом полезности (HOU): если набор элементовXXизru(X)minUtilru(X) \ge minUtil0minUtil10 \le minUtil \le 1,ПредполагатьminUtil=0.43minUtil = 0.43, по принципу можно рассчитать следующий ДОМ:

    HOUs
  • Значение полезности веса предмета сделки (transaction-weighted utilization) та же проблема, что и при майнинге HUI, нужноTWUTWUОбратная монотонность , для отсечения, формула определения:TWU(X,h)=XTjh=pt(Tj)TU(Tj)TWU(X, h) = \sum_{X \subseteq T_{\rm j} \land h = pt(T_{\rm j})}TU(T_{\rm j})

  • период времениhhПолезность определяется какpto(h)=h=pt(Tj)TU(Tj)pto(h) = \sum_{h = pt(T_{\rm j})}TU(T_{\rm j}), то наборы элементов, существующие в этот период времениXXОтносительная полезность определяется как:ru(X,h)=u(X,h)/pto(h)ru(X, h) = u(X, h) / pto(h)

    • имеютTWU(X,h)u(X,h)TWU(X, h) \ge u(X, h), такTWUTWUЕго можно использовать как набор элементов, чтобы заранее определить верхнюю границу определенного периода времени.
    • TWUTWUобладает антимонотонностью, когда набор элементовXXэто набор элементовYYКогда подмножество , всегда естьTWU(X,h)TWU(Y,h)TWU(X, h) \ge TWU(Y, h)установлено, то есть если набор элементовXXв период времениhhне является набором товаров высокой полезности, то его подмножества также не должны быть
    • в определенный период времениhhнабор предметовXXизTWUTWUСуммарная полезность, деленная на период времени, больше или равна относительной полезности предмета, установленного в этот период времени, а именно:TWU(X,h)/pto(h)ru(X,h)TWU(X, h) / pto(h) \ge ru(X, h)
    • когда элементыXXнет периода времениhhимеет неравенстваTWU(X,h)/pto(h)minUtilTWU(X, h) / pto(h) \ge minUtilустановлено, то комплект не может быть ХОУ, наоборот, может быть, и требуется дальнейшая проверка
  • Изменяет значение полезности элемента транзакции (redefined transaction utility) Точно так же для решения проблемы бесполезности требуется редизайнTU,СейчасRTU(Tj)=xiеTjp(xi)>0u(xi,Tj)RTU(T_{\rm j}) = \sum_{x_{\rm i} \in T_{\rm j} \land p(x_{\rm i}) > 0}u(x_{\rm i}, T_{\rm j})

  • Исправлено значение полезности веса предмета транзакции (redefined transaction-weighted utilization) то же, что и выше, набор товаров X имеет формулу для периода времени h:RTW(X,h)=XTjh=pt(Tj)RTU(Tj)RTW(X, h) = \sum_{X \subseteq T_{\rm j} \land h = pt(T_{\rm j})}RTU(T_{\rm j})

  • Список утилит (utility-list) с наборами элементовXXкак ядро, записывать информацию, относящуюся к этому набору, без повторного сканирования набора данных (P.S. Товар еще в порядке”\succ», как его сортировать, зависит от реальной ситуации). Выражается как(tid,iutil,rutil)(tid, iutil, rutil)iutil(X)=u(X,Ttid)iutil(X) = u(X, T_{\rm tid}),util(X)=xiеTtidxixj,xjеXu(xi,Ttid)util(X) = \sum_{x_{\rm i} \in T_{\rm tid} \land x_{\rm i} \succ x_{\rm j}, \forall x_{\rm j} \in X}u(x_{\rm i}, T_{\rm tid})Вы можете обратиться к следующему примеру (обратите внимание на правила расчета его элементов):

    utility-lists
    • набор предметовXXимеютu(X)=XTjituil(X)u(X) = \sum_{X \subseteq T_{\rm j}}ituil(X)
    • набор предметовXXимеютXTjiutil(X)+XTjrutil(X)u(X)\sum_{X \subseteq T_{\rm j}}iutil(X) + \sum_{X \subseteq T_{\rm j}}rutil(X) \ge u(X), а формула большеTWU(X)TWU(X)более компактный
  • для наборовXX, в период времениhhТам

    sumIUtil(X,h)+sumRUtil(X,h)u(X,h)sumIUtil(X,h)+sumRUtil(X,h)TWU(X,h)sumIUtil(X,h)+sumRUtil(X,h)sumIUtil(Y,h)+sumRUtil(Y,h)[XY](sumIUtil(X,h)+sumRUtil(X,h))/pto(h)ru(X,h)sumIUtil(X, h) + sumRUtil(X, h) \ge u(X, h) \\ sumIUtil(X, h) + sumRUtil(X, h) \le TWU(X, h) \\ sumIUtil(X, h) + sumRUtil(X, h) \ge sumIUtil(Y, h) + sumRUtil(Y, h) [X \subset Y] \\ (sumIUtil(X, h) + sumRUtil(X, h)) / pto(h) \ge ru(X, h)
  • существуетСоздайте список полезностей от 3 юаней и вышеВ алгоритме элементы с отрицательной полезностью всегда сортируются после элементов с положительной полезностью, аup(X)up(X)Представляет набор элементовXXМножество всех членов положительной полезности в ,un(X)un(X)Представляет набор элементовXXНабор всех элементов отрицательной полезности в наборе имеет следующие свойства:

    • u(X,h)u(up(X),h)u(X, h) \le u(up(X), h),так какu(X,h)u(X, h)может также содержать значения ненужности для предметов ненужности
    • u(up(X{z}),h)u(up(X),h)u(up(X \cup \{z\}), h) \le u(up(X), h), и легко подумать, что каждый раз, когда длина набора элементов увеличивается, количество раз, которое он может появиться в элементе транзакции, должно быть меньше, чем количество раз перед каждым увеличением.
    • когда элементыXXнеравенствоru(up(X),h)=u(up(X),h)/pto(h)<minUtilru(up(X), h) = u(up(X), h) /pto(h) < minUtilHeng установлен, и в это время может быть расширен только элемент отрицательной полезности, тогда ни набор элементов, ни его расширение не могут быть HUO
    • когда элементыXXнеравенствоsumIPUtil(X,h)+sumRUtil(X,h)/pto(h)<minUtilsumIPUtil(X, h) + sumRUtil(X, h) / pto(h) < minUtilконстанта, то ни множество, ни его расширение не могут быть HUO (гдеsumIPUtil(X,h)=u(X,Tj)>0XTjh=pt(Tj)iputil(X,h)sumIPUtil(X, h) = \sum_{u(X, T_{\rm j}) > 0 \land X \subseteq T_{\rm j} \land h = pt(T_{\rm j})}iputil(X, h))

алгоритм

основной метод

the FOSHU algorithm

Глубокий обход, чтобы найти HOUse

The Search Procedure

Создайте список полезностей от 3 юаней и выше

Construct method

Суммировать

Этот алгоритм основан на схеме FHM, плюсFHNНекоторые приемы работы с негативными товарами, направленные на понимание того, почему обсуждается сценарий «на полке» и что означает его применение.