Алгоритм HUSP-ULL

алгоритм сбор данных

Впереди написано: это новейший алгоритм высокоэффективного интеллектуального анализа последовательностей в 2020 году. Он основан на общем LQS-дереве в сочетании со структурой списка, дополненном двумя эффективными стратегиями сокращения, LAR и IIP, что значительно сокращает майнинг. , Ресурсы, потребляемые в процессе, и по сравнению с тремя алгоритмами USpan, HUS-Span и ProUM в ходе экспериментов, производительность алгоритма HUSP-ULL является лучшей.

Fast Utility Mining on Sequence Data

Следует подчеркнуть, что анализ последовательности должен основываться на упорядоченном состоянии всех элементов (по причинам, которые можно найти вАлгоритм SPADEиАлгоритм HUSRMПримечания), конкретные правила сортировки задаются в соответствии с особенностями самого алгоритма, единого принципа нет.

определение

  • Символ «q-» относится к «количественному», например, «q-последовательность» относится к последовательности, содержащей количественный параметр (aa, 2)(bb, 1)}, {(cc, 3)}>), "последовательность" относится к abab}, {cc}>, то же, что и "q-itemset", "q-item"
  • установить "q-последовательность"ss = <v1v_1, v2v_2, \ldots, vdv_d>, "последовательность"tt = <w1w_1, w2w_2, \ldots, wd'w_{d^\prime}> еслиdd = d'd^\primeи составляютvkv_kэлементы сwkw_kЕсли элементы одинаковы, то это называетсяttсовпадениеss(tst \sim s); очевидно, последовательности могут соответствовать несколько q-последовательностей (количество является переменной), таких как aa, 1}, {bb, 1}> или aa, 3}, {bb, 2}> \sim <{aa}, {bb}>
  • событиеwwдаw'w^\primeПодсобытия хорошо оценены, но для "q-itemset"vv'v \subseteq v^\prime, тогда и только тогда, когда он составляетvvЭлементы состоят изv'v^\primeПодмножество элементов и соответствующее количество должны быть согласованы, что отличается от определения отношения включения набора элементов; аналогично, последовательностьssиwwтот же критерий
  • Потому что есть несколькоssсовпадениеtt, поэтому при вычислении "последовательности"ttКогда значение полезности , возьмите самое длинное совпадающее значение полезности (u(t,s)u(t, s) = max{u(sk)tsksksu(s_k) \mid t \sim s_k \land s_k \subseteq s}),дальше,ttПолное значение полезности в наборе данных рассчитывается какu(t)u(t) = sеD\sum_{s \in D}{u(t,s)tsu(t, s) \mid t \subseteq s}; Для простоты позиция последнего элемента каждого совпадения определяется как точка соединения, где первая точка соединения называется начальной точкой, например пустьtt= , то вSS = <{(aa, 2)(c, 3)}, {(aa, 3)(bb, 1)(cc, 2)}, {(aa, 4)(bb, 5)(dd, 4)}, {(ee, 3)}> Точки соединения — 4, 7, 7, а начальная точка соединения — 4 (Ps.потому что в заказанном состоянии она изbbначать соединение вместоaa)
  • для "последовательности"ttСуществует два метода расширения (I-конкатенация и S-конкатенация): I-конкатенация эквивалентнаiji_jРасширение последовательности по вертикали не увеличивает длину исходной последовательности (tijt \oplus i_j>IConcatenation_{I-Concatenation}); S-конкатенация эквивалентна помещению элементаiji_jРасширение последовательности по горизонтали увеличит длину исходной последовательности на 1 (tijt \oplus i_j>SConcatenation_{S-Concatenation})
  • Чтобы сократить время сопоставления последовательностей и уменьшить их количество, для каждой подходящей последовательности создается новая структура данных Utility-Linked-List Structure, конкретное содержание которой показано на следующем рисунке:

UL-List, по сравнению со структурой данных, используемой другими алгоритмами, структура UL-List более компактна и не хранит много ключевой информации (с использованием технологии проецирования)

Стратегия

свойство замыкания вниз

Это классическая верхняя граница, используемая большинством алгоритмов майнинга, которые могут эффективно удалять элементы, напрямую связанные с корневым узлом, и избегать создания слишком большого количества бесполезных кандидатов высокого порядка.кликните сюда

утилита расширения последовательности

В соответствии с концепцией остаточной полезности в алгоритме HUI-Miner для последовательности сумма значений полезности ее расширяемых элементов представляет максимальную степень расширения последовательности. "последовательность"ttРасширение определяется какI(t)restI(t)_{rest} = {ijijе<st>resttssеDi_j \mid i_j \in <s - t>_{rest} \land t \subseteq s \land s \in D}, утилита расширения последовательностиSEU(t)SEU(t) = sеD\sum_{s \in D}{u(t,s)u(t, s) + u(<st>rest)u(<s-t>_{rest}) \mid tSt \subseteq S}, то имеет место теоремаSEU(t')SEU(t)SEU(t^\prime) \le SEU(t),u(t)SEU(t)u(t) \le SEU(t)установлено, то можно сделать вывод, что если "последовательность"ttизSEUSEUменьше порога, нет необходимостиttбыть расширенным (процесс доказательстваАлгоритм ProUMв деталях)

утилита расширения префикса

SEUSEUНедостаток очевиден, он не доказываетttсама по себе неэффективная последовательность, и если вычислить ее вручнуюSEUSEUМожно обнаружить, что она намного выше, чем реальная величина полезности (Ps.Повторный расчет значения t). Поэтому в статье используется более компактная верхняя границаPEU(t)PEU(t) = sеD\sum_{s \in D}{PEU(t,s)tsPEU(t, s) \mid t \subseteq s},PEU(t,s)PEU(t, s) = max{u(sk)u(s_k) + u(<ssk>rest)u(<s - s_k>_{rest}) \mid tskskst \sim s_k \land s_k \subseteq s}(Ps. Принятие максимального значения на самом деле является верхней границей); по той же причине существуют теоремыPEU(t')PEU(t)PEU(t^\prime) \le PEU(t),u(t)PEU(t)u(t) \le PEU(t)учредил (Ps. Процесс доказательства подробно описан в статье)

в соответствии сPEUPEU, в документе предлагаются две новые стратегии обрезки:

  • LAR pruning strategy: Для двух различных способов соединения последовательности устанавливаются следующие неравенства: 1) max{u(<tij>IConcatenation)u(<t \oplus i_j>_{I-Concatenation})} \le sеD\sum_{s \in D}{PEU(t,s)PEU(t, s) \mid <tij>IConcatenations<t \oplus i_j>_{I-Concatenation} \subseteq s}; 2) макс{u(<tij>SConcatenation)u(<t \oplus i_j>_{S-Concatenation})} \le sеD\sum_{s \in D}{PEU(t,s)PEU(t, s) \mid <tij>SConcatenations<t \oplus i_j>_{S-Concatenation} \subseteq s},вiji_jэто "последовательность"ttКандидаты под разные способы подключения (Ps.Это не сложно понять, сам ПЭУ рассчитывается по максимальному значению) когда верхнее граничное значение меньше порога, можно сделать вывод о кандидатеiji_jявляется малополезным предметом и не может быть использован дляttдля масштабирования эта стратегия позволяет избежать избыточныхPEUPEUрассчитать
  • IIP pruning strategy: данная "последовательность"ttи любой предметijеI(t)resti_j \in I(t)_{rest},еслиsеD\sum_{s \in D}{PEU(t,s)PEU(t, s) \mid (<tij>IConcatenations<t \oplus i_j>_{I-Concatenation} \subseteq s) \lor (<tij>SConcatenations<t \oplus i_j>_{S-Concatenation} \subseteq s)} меньше порога, то можно сделать вывод, чтоiji_jдаttНерелевантный член , в последующей пареttи его расширенияt't^\primeможно игнорировать непосредственно в процессе обработкиiji_j, эта стратегия может еще больше уменьшить значение оставшегося члена полезности и сузить диапазон расширения последовательности

Поддельный код

Main algorithm

Main algorithm

PGrwoth procedure

PG-Growth procedure

Judge procedure

Judge procedure

Суммировать

Алгоритм HUSP-ULL основан на предыдущемPEUPEUConcept разрабатывает две новые стратегии обрезки и подробно анализирует их.SWUSWU,SEUSEUиPEUPEUотношения между тремя. Основное внимание в статье уделяется анализу того, как уменьшить размер LQS-дерева с помощью новой стратегии обрезки.Структура данных UL-списка не такая, как предполагалось, и не создается для каждой подпоследовательности (она действительно невозможно подумать об этом, слишком много кандидатов на последовательность), но для каждого элемента транзакции (полная последовательность), и в статье было проведено большое количество экспериментов и подробных сравнительных обсуждений, которые очень стоит изучить и исследовать. Кроме того, чтобы отличить его от задачи интеллектуального анализа эпизодов, алгоритм выполняет служебный интеллектуальный анализ, при этом каждый элемент транзакции не зависит друг от друга.

Категории