Спереди написано: Объект сравнения этого алгоритма — UP-Span, На самом деле я хочу знать, кто лучше алгоритма UMEpi. Поскольку стратегии и оптимизация определений, принятые обеими сторонами, очень похожи, разница заключается в структуре хранения. Лично я считаю этот алгоритм относительно важным, и ключевая информация будет выделена.
Fast High Utility Episode Mining
Образец
A complex event sequence
External utility
определение
Прежде всего, нам нужно уточнить, что такое «событие»? В Episode Mining событие может относиться к записи о предмете покупки или может быть предупреждением о риске.Событие здесь используется в широком смысле, и важно быть ясным. Конечно, каждое появление события будет иметь соответствующий момент времени, и каждое событие (набор) во временном ряду находится вупорядоченное состояние, измерение времени является необходимым условием майнинга эпизодов, которое можно рассматривать как2D система координатобсудить в.
-
Сложная последовательность событий (сложная последовательность событий) дополнительно расширяется на основе простой последовательности событий (простая последовательность событий, в каждый момент времени происходит только одно событие, и событие находится в упорядоченном состоянии), а также имеется несколько событий в каждый момент времени. каждый момент времени События происходят в одно и то же время (набор событий), определяемый как,вЭто относится к набору событий в каждый момент времени, а длина набора равна, первый в примере тоже можно увидеть
-
Эпизод есть эпизодне пустойИ есть упорядоченные подпоследовательности с несколькими событиями, происходящими одновременно, выраженными в виде, из-за разных способов объединения событий представление каждого сюжета также немного отличается.Если два события происходят одновременно, то мы используемозначает, что если два события происходят одно за другим, то мы используемуказать, обратить внимание на различие
-
Период появления (вхождения) произвольный сюжетОдин или несколько периодов времени, соответствующих каждому событию (промежуток времени, когда происходит каждое событие)называется возникновением события. Чтобы было ясно, первая серия событийдолжно произойти в момент времени, последний набор событийдолжно произойти в определенный момент времени(Это период времени, когда происходит сюжет, используйтеВыражать)
-
Минимальный период времени возникновения (минимальное появление) Когда период времени, в котором происходит сюжет, является наименьшим, мы специально указываем период времени для последующих расчетов. пример сюжетаПериод времени(Обратите внимание, что события B и C следуют друг за другом), а минимальный промежуток времени равен 1, поэтому
-
Максимальная продолжительность времени (maximum time duration) Эта переменная является верхним пределом, устанавливаемым пользователем, потому что по мере дальнейшего роста временного промежутка не только будет увеличиваться рабочая нагрузка, но и связь между событиями будет становиться все более и более тесной. Чем слабее, тем Минимальный период времени возникновения эпизода удовлетворяет требованию максимального временного интервала.
-
Полезность события согласуется с методом расчета HUIM, то есть внутренняя полезность (количество, количество) умножается на внешнюю полезность (прибыль, прибыль) Используемые формулы расчета (шаг за шагом) следующие:
- Значение полезности для одного события в один момент времени:
- Значение полезности для набора одновременных событий в один момент времени:,Уведомление
- Значения полезности для одного эпизода за минимальный период времени возникновения:,в, обратите внимание, что каждое событие должно однозначно соответствовать своему моменту времени, а значение полезности события, не относящегося к соответствующему моменту времени, записывается как 0.
- Значение полезности отдельного эпизода во всей сложной последовательности событий:
В качестве примера возьмем последнюю формулу расчета полезности, пусть, то есть
Уведомлениеи событиеиМежду ними существует последовательная связь, а не одновременно
-
эпизод высокой полезности, когдавремя, сюжетЭто участок с высокой полезностью (для краткости «HUE»), который мы ищем, и процесс добычи HUE называется добычей участков с высокой полезностью (HUEM).
В документе указывается, что, поскольку сюжет может иметь несколько воплощений в этой сложной последовательности событий (из-за временного промежутка вы можете обратиться к), поэтому предыдущий расчет HUEM учитывает только значение полезности первого встречающегося эпизода, но реальность такова, что одно и то же событие в разные моменты времени может иметь разную внутреннюю полезность. Результатом этого является один и тот же график, а величина полезности, созданная в разные периоды времени, не одинакова.
Ввиду указанных выше недостатков в статье для метода расчета исходной полезности сделано следующее:исправить
-
Переопределен эпизод высокой полезности с учетом двух пороговых значений ограничений.и,когда,,когда мы рассматриваем сюжетоттенок
-
Исправьте значение полезности одного эпизода за минимальный период времени возникновения:
Все содержание расчета можно разделить на три части: начало, сочетание максимального значения полезности в середине и конец. такой же какНапример,
-
Расчеты по другим формулам остаются без изменений.
-
-
Параллельная конкатенация (одновременная конкатенация) В этом режиме конкатенации размах событий графика после конкатенации не увеличивается,-
-
Последовательная конкатенация В этом режиме конкатенации диапазон событий графика после конкатенации увеличивается,-
-
взвешенное по эпизодам использование иTWU,SWUТочно так же в качестве предварительного условия проверки со свойством закрытия загрузки все обсуждаемые здесь сценарии должны иметь, для каждого одновременного событияимеют соответствующие моменты времени(Ps. По крайней мере, один момент времени), используемые формулы расчета (шаг за шагом) следующие:
-
EWU для одного эпизода в течение минимального периода времени возникновения:
в,те, кто не принадлежит, но вНабор событий в соответствующем промежутке времени (вы можете обратиться к следующим примерам для понимания)
-
ЕСВ для одного эпизода в течение минимального периода времени возникновения: сру, реусходство,значит вразделить наОставшийся набор событий состоит из всех других событий, кроме внутреннего события, формула расчета выглядит следующим образом.
-
ЕСВ для одного эпизода в сложной последовательности событий:
Аналогично возьмем последний для расчета в качестве примера, пусть,, то есть
-
-
Антимонотонность ЕСВ для сюжета, подлежащего продлениюи сюжет,имеют-или-, с правиламиКонстанта установлена, и правило можно вывести, сравнив их расчетные формулы
-
(использование окна действия эпизода) Это относительно новое вычисление, потому чтоЕго нельзя напрямую применить к сложным последовательностям событий, поэтому этот объем вычислений используется для фильтрации набора кандидатов.
Например, пусть,придется,
как,придется(Обратите вниманиепредставляет собой совокупность одновременных событий, а непоследовательность)
Стратегия
Обрезка на основе AWU
использоватьопределение, чтобы заменить оригиналПолучите набор событий высокой полезности длины один. так какне очень компактное значение верхней границы, плюс проблема ошибки вычисления (см. определение вredefined high utility episode), вызовет проблемы с точностью
EEUCS structure and EEUCP strategy
Как показано на рисунке ниже: структура EEUCS и стратегия EEUCP используются для сокращенияисумма расчета
алгоритм
HUE-Span algorithm
MiningSimultHUE algorithm
MiningSerialHUE algorithm
Суммировать
Отличие от предыдущего алгоритма MEU в том, что он используетВ качестве предварительной стратегии обрезки (хотя принцип еще не выяснен, почему ее можно заменить) с последующими изменениями в структуре хранения последовательное расширение и параллельное расширение легко получаются с помощью расширения вверх-вниз, влево-вправо матричный, а последующие методы сплайсинга и нет большой разницы с предыдущими алгоритмами. Тем не менее, алгоритм может получить полные HUE, изменив стратегию сокращения, что очень хорошо видно из экспериментальных данных, и я заметил, что тестовый набор, используемый алгоритмом, представляет собой базу данных транзакций, а это означает, что каждый идентификатор транзакций рассматривается как момент времени, и каждый элемент транзакции представляет собой набор одновременных событий.