Спереди написано: Этот алгоритм является первым, который может полностью майнить все высокоэффективные участки.Он немного отличается от UP-Span по определению, но именно это отличие приводит к большим изменениям в точности результатов майнинга.
Utility-Driven Mining of High Utility Episodes
Образец
служебная таблица
сложная последовательность событий
определение
Большинство основных определений могут относиться кUP-SpanАлгоритмы, некоторые дополнительные и ключевые определения даны ниже.
-
Период времени, когда произошло событие (Occurrence) Определение соответствует тому, что в UP-Span, вот дополнительное пояснение, задайте сложный сюжет, называется сложным сюжетом, потому что он содержит набор событий, происходящих параллельно () и набор событий последовательного появления (), то множество периодов времени возникновения событий равно=, следует отметить, что событиеиДолжны быть одновременными (то есть в один и тот же момент времени), иначе это серийное событие, и исходный сюжетНастройки не совпадают
-
максимальный срок (Maximum time duration) похоже на скользящее окно в более ранних алгоритмах извлечения эпизодов, но требует ограничения по времени, определяемого пользователем (MTD), чтобы избежать увеличения объема вычислений и уменьшения корреляции между событиями из-за слишком большого промежутка времени.промежуток времени, чтобы удовлетворить, очевидно, минимальный промежуток времени появленияКонстанта удовлетворяет этому неравенству.
P.S. Здесь следует отметить, что,UP-SpanОпределение в, причина, по которой алгоритм UMEpi разработан таким образом, заключается в том, чтобы обеспечить более точную границу и упростить понимание
-
Значение полезности веса графика (Episode-Weighted Utilization) Есть две формулы расчета:
- ВВЕРХ:
- TSpan:
в, TSpan в момент времениСобытие, установленное выше, будет засчитано дважды, что приведет к неточному EWU, можно привести пример:
Предполагать, можно получить следующие два результата расчета
Отчетливо видно, чтособытия в определенный момент времениРасчет повторяется, что приводит к расчету конечного результата слишком большим.Алгоритм UMEpi использует метод расчета UP-Span
Следует дополнительно указать, что EWU отличается от TWU и SWU, его можно использовать только какместная обрезкаВозникает ситуация, вместо того, чтобы иметь возможность обрезать с нуля на месте, как два других, одновременно (из-за разных вхождений и методов расширения). Например, установитьучастокиз= 24 доллара используются недостаточно и должны быть сокращены, но его расширенный участок(48 долларов США),($51) — участок с высокой полезностью.Таким образом, в эпизодическом майнинге полезных ископаемых существует «Сценарии с низкой полезностью могут быть расширены до сценариев с высокой полезностью.явление, которое также является трудностью в процессе раскопок
-
Постройте остаточную полезность (Remaining utility of an episode)вявляются событиями, и эти события расположены в определенные моменты временина участкеПосле этого это ключ к расчету EWU, потому что EWU можно считать граничным значением только в том случае, если учитывается остаточная полезность участка (потенциально расширяемый набор событий), и обратите внимание, что сумма остаточной полезности участка вычисляется над сложной последовательностью событий. Промежуток времени
В соответствии с остаточной полезностью графика мы можем оптимизировать EWU, чтобы получить новую формулу:
в
-
Участок с высокой полезностью (High-utility episode) учитывая сложную последовательность событий, максимальный срокMTDи установленные пользователем порогиminUtil,когдаСобытие (набор) в удовлетворяет, мы называем событие (множество) какHUE
Стратегия
Episode-Weighted Downward Closure Property
-
Дерево словарной последовательности (Lexicographic sequence tree) на основе корневого узла префиксного дерева пусто, а все дочерние узлы родительского узла (также называемого префиксным узлом) формируются путем соединения (строкового, параллельного), и эти дочерние узлы упорядочены.
Пс.иEHINДерево перечисления пространственного поиска в согласованном
В дереве последовательности словаря мы можем использоватьЭто неравенство используется для обрезки, гдесюжетРасширенный сюжет (расширенный вSimult-ConnectionиSerial-Connection), процесс вывода можно доказать, сравнивая их определения
алгоритм
Алгоритм также разделен на два этапа: 1) сканирование для генерации HUE 1-го порядка; 2) постоянный вызовHUE-SpanВ методе используются комбинации низших порядков для генерации HUE высокого порядка.
The Span-SimultHUE procedure:
The Span-SerialHUE procedure:
Суммировать
Основными вкладами этой статьи являются: 1) продемонстрировано, что графики с низким весом можно также комбинировать с графиками с большим весом для создания графиков с большим весом, что не учитывается предыдущим алгоритмом HUEM; 2) значение остаточной полезности. используется для переопределения более компактногоEWU, что значительно повышает скорость работы; 3) По сравнению с такими алгоритмами, как UP-Span, не используется механизм прогнозирования для определения того, какие эпизоды эффективны,сохраненный эпизодВсе происходящие подпоследовательности (т. е. потенциально комбинируемые эпизоды)