Спереди написано: Этот алгоритм является первым, который может полностью майнить все высокоэффективные участки.Он немного отличается от UP-Span по определению, но именно это отличие приводит к большим изменениям в точности результатов майнинга.
Utility-Driven Mining of High Utility Episodes
Образец
служебная таблица
сложная последовательность событий
определение
Большинство основных определений могут относиться кUP-SpanАлгоритмы, некоторые дополнительные и ключевые определения даны ниже.
-
Период времени, когда произошло событие (Occurrence) Определение соответствует тому, что в UP-Span, вот дополнительное пояснение, задайте сложный сюжет
, называется сложным сюжетом, потому что он содержит набор событий, происходящих параллельно ( ) и набор событий последовательного появления ( ), то множество периодов времени возникновения событий равно = , следует отметить, что событие и Должны быть одновременными (то есть в один и тот же момент времени), иначе это серийное событие, и исходный сюжет Настройки не совпадают -
максимальный срок (Maximum time duration) похоже на скользящее окно в более ранних алгоритмах извлечения эпизодов, но требует ограничения по времени, определяемого пользователем (MTD), чтобы избежать увеличения объема вычислений и уменьшения корреляции между событиями из-за слишком большого промежутка времени.
промежуток времени, чтобы удовлетворить , очевидно, минимальный промежуток времени появления Константа удовлетворяет этому неравенству.P.S. Здесь следует отметить, что,UP-SpanОпределение в
, причина, по которой алгоритм UMEpi разработан таким образом, заключается в том, чтобы обеспечить более точную границу и упростить понимание -
Значение полезности веса графика (Episode-Weighted Utilization) Есть две формулы расчета:
- ВВЕРХ:
- TSpan:
в
, TSpan в момент времени Событие, установленное выше, будет засчитано дважды, что приведет к неточному EWU, можно привести пример:Предполагать
, можно получить следующие два результата расчетаОтчетливо видно, что
события в определенный момент времени Расчет повторяется, что приводит к расчету конечного результата слишком большим.Алгоритм UMEpi использует метод расчета UP-SpanСледует дополнительно указать, что EWU отличается от TWU и SWU, его можно использовать только какместная обрезкаВозникает ситуация, вместо того, чтобы иметь возможность обрезать с нуля на месте, как два других, одновременно (из-за разных вхождений и методов расширения). Например, установить
участок из = 24 доллара используются недостаточно и должны быть сокращены, но его расширенный участок (48 долларов США), ($51) — участок с высокой полезностью. Таким образом, в эпизодическом майнинге полезных ископаемых существует «Сценарии с низкой полезностью могут быть расширены до сценариев с высокой полезностью.явление, которое также является трудностью в процессе раскопок - ВВЕРХ:
-
Постройте остаточную полезность (Remaining utility of an episode)
в являются событиями, и эти события расположены в определенные моменты времени на участке После этого это ключ к расчету EWU, потому что EWU можно считать граничным значением только в том случае, если учитывается остаточная полезность участка (потенциально расширяемый набор событий), и обратите внимание, что сумма остаточной полезности участка вычисляется над сложной последовательностью событий. Промежуток времениВ соответствии с остаточной полезностью графика мы можем оптимизировать EWU, чтобы получить новую формулу:
в
-
Участок с высокой полезностью (High-utility episode) учитывая сложную последовательность событий
, максимальный срокMTDи установленные пользователем порогиminUtil,когда Событие (набор) в удовлетворяет , мы называем событие (множество) какHUE
Стратегия
Episode-Weighted Downward Closure Property
-
Дерево словарной последовательности (Lexicographic sequence tree) на основе корневого узла префиксного дерева пусто, а все дочерние узлы родительского узла (также называемого префиксным узлом) формируются путем соединения (строкового, параллельного), и эти дочерние узлы упорядочены.
Пс.иEHINДерево перечисления пространственного поиска в согласованном
В дереве последовательности словаря мы можем использовать
Это неравенство используется для обрезки, где сюжет Расширенный сюжет (расширенный вSimult-ConnectionиSerial-Connection), процесс вывода можно доказать, сравнивая их определения
алгоритм
Алгоритм также разделен на два этапа: 1) сканирование для генерации HUE 1-го порядка; 2) постоянный вызовHUE-SpanВ методе используются комбинации низших порядков для генерации HUE высокого порядка.
The Span-SimultHUE procedure:
The Span-SerialHUE procedure:
Суммировать
Основными вкладами этой статьи являются: 1) продемонстрировано, что графики с низким весом можно также комбинировать с графиками с большим весом для создания графиков с большим весом, что не учитывается предыдущим алгоритмом HUEM; 2) значение остаточной полезности. используется для переопределения более компактногоEWU, что значительно повышает скорость работы; 3) По сравнению с такими алгоритмами, как UP-Span, не используется механизм прогнозирования для определения того, какие эпизоды эффективны,