Написано впереди: анализ шаблонов эпизодов отличается от анализа шаблонов наборов элементов. Его сложность намного больше, чем набор элементов. Прежде всего, «сюжет» означает возникновение серии событий. Несколько наборов элементов генерируются в течение определенного периода времени, и эти наборы элементов могут генерироваться последовательно, возникать и, возможно, в одно и то же время. То есть анализ эпизодов должен учитывать не только горизонтальную последовательность событий, но и объединять вертикальный набор событий.
Mining High Utility Episodes in Complex Event Sequences
определение
Добыча эпизодов начинается с расчета частоты, поэтому вот несколько основных определений.
Частый класс
-
Простая последовательность событий (Simple event sequence):Предполагатьэто конечное множество событий, простая последовательность событийэто набор событийаккуратныйпоследовательность, где каждое событиевсе в один момент времениСвязанный. Например, на следующем рисунке (Рис. 1.):
-
Простой сюжет (Simple episode): простой сюжетпредставляет собой множество непустыхаккуратныйКоллекция событий. Например, на рисунке (Рис. 1.)просто простой сюжет
-
Набор одновременных событий (Simultaneous event set): набор одновременных событийв тот же момент времениНабор событий, произошедших в.
-
сложная последовательность событий (Complex event sequence): сложная последовательность событий это серияаккуратныйНабор событий содержит несколько одновременных наборов событий, и каждый одновременный набор событий формирует последовательность событий. Например, как показано на следующем рисунке (Рисунок 2.):
-
длина и размер (Length and Size): сюжет событияДлина определяется как (фактически количество событий в наборе), называемое-эпизод; при этом сюжет событияРазмер равен количеству одновременных наборов событий в эпизоде. Например:представляет собой 3-серийный размер 2
-
происходить(Occurrence): Учитывая сюжет , когда 1) сюжетпроизошло в период времени []; 2) сюжетпервый одновременный набор событийпроизошло вмомент времени, последний набор одновременных событийпроизошло вмомент времени, так называемый сюжетпроисходит в промежутке времени [] начальство. Среди них сюжетМножество всех периодов времени возникновения. Например: на рисунке (Рисунок 2.)
-
Кратчайший срок (Minimal occurrence): учитывая сюжетдва временных интервала [], [], [] Да [] : когда 1) сюжетпроизошло в [] период времени; 2) [] Подмножество не существует. Кратчайший период времени возникновения записывается как. Среди них сюжетМножество всех кратчайших периодов времени появления. Например: сюжетКратчайший период времени появления [1,2] из , и
-
поддержка сюжета (Support of an episode):участокслужба поддержкиОпределяется как набор периодов времени, которые происходят в кратчайшемКоличество кратчайших периодов времени появления в (Ps.то есть это произошло один раз за этот период времени), скорость поддержки определяется как в CSОтношение к моменту времени
-
частые приступы (Frequent episode): когда поддержка участка не ниже заданного пользователем порога поддержки (), то эпизод называют частым эпизодом.
В документе также упоминается, почему следует разработать новую утилиту майнинга, которая заменит частотный майнинг: во-первых, значение частотного выражения слишком узкое (например, в случае с бриллиантами и хлебом), а во-вторых, что трудно обсуждать события. параллелизм на основе частоты (одновременное возникновение (определяется как возникновение только одного события в один и тот же момент времени)
Класс полезности
Предполагать,в, каждое событиеобе сопутствующие прибыли(внешняя полезность) и количество(внутренняя утилита). В следующей таблице (Таблица 1) и на рисунке (Рисунок 3) представлена внешняя полезность и внутренняя полезность каждого события соответственно.
-
полезность события в определенный момент времени (Utility of an event at a time point): в какой-то момент времениследующее событиеПолезность определяется как(выгодаколичество)
-
Полезность набора событий, происходящих параллельно в определенный момент времени (Utility of a simultaneous event set at a time point): в какой-то момент времениСледующий набор параллельных (одновременных) событийПолезность определяется как
-
Общая полезность на основе комплексных наборов данных последовательности событий (Total utility of database complex event sequence): на основе сложной последовательности событийПолная полезность определяется как
-
Построить график полезности по кратчайшему периоду появления (Utility value of an episode w.r.t its minimal occurrence):Предполагатьсюжеткратчайший период времени возникновения, в течение которого каждый набор событий происходит параллельнов определенный момент времениСвязанный. Полезность сюжета по отношению к кратчайшему периоду появления определяется как
-
Полезность сюжетов, основанных на сложных последовательностях событий (Utility of an episode in a complex event sequence):Предполагатьэто о сюжетеМинимальный набор вхождений . на основе сложных временных рядовПолезность сюжета определяется как, и имеет
-
максимальная продолжительность (Maximum time duration):Предполагатьмаксимальная продолжительность, заданная пользователем,сюжеткратчайший период возникновения. когда,сказатьотОграничения (или выполняются) из (Ps.МПД играет роль временного окна, потому что мы должны определить диапазон, если мы хотим вычислить, иначе бесконечный период времени или бесконечно малый не способствует нашему исследованию)
-
Параллельные и последовательные соединения (Simultaneous and serial concatenations):Предполагать ,иПараллельная конкатенация определяется как- ,иПоследовательное соединение определяется как- (Ps. Оба являются расширенными наборами предметов, но их комбинация отличается.)
-
Участок с высокой полезностью (High Utility Episode): когда сюжетполезность, он считается нужным нам узором (ОТТЕНОК), в противном случае он не
-
эпизодические веса полезности (Episode-Weighted Utilization of an episode):Предполагать,иудовлетворитьограничение. Затем на основе сложной последовательности событийСюжетполезный вес. Например: пусть,Так
-
Полезность, взвешенная по графику, по отношению к кратчайшему периоду появления (Episode-Weighted Utilization of an episode w.r.t a minimal occurrence):ПредполагатьсюжетКратчайший период времени возникновения, когдаотограничения. затем в [] следующий эпизодПолезность веса сюжета ,ввМомент времени в наборе одновременных событий в. Например: пусть,Так
-
Участки полезного назначения с большим весом (High Weighted Utilization Episode): когда сюжетиз, эпизод называется эпизодом полезности с большим весом (HWUE), который является событием-кандидатом следующего определения.
-
события-кандидаты (Promising event):когда, событиеявляется событием-кандидатом, и его полезность эпизода необходимо дополнительно рассчитать для точного суждения. В противном случае бесперспективное мероприятие, когдаявляется некандидатным событием, для любого сюжета, их надмножествовсе неэффективны.
-
Нисходящее замыкание графиков весов (Episode-Weighted Downward Closure property (EWDC)):Предполагатьиучастки, и-или-,когдачас,это неэффективный сценарий
Стратегия
Discarding Global unpromising Events(DGE)
Используя нисходящее закрытие веса графика, эти неэффективные события удаляются в начале для достижения цели оптимизации алгоритма.
Discarding Local unpromising Events(DLE)
Используйте нисходящее закрытие веса графика, чтобы удалить эти неэффективные события в процессе работы (например, в отсечении, отсортированном наборе данных) для достижения цели оптимизации алгоритма.
алгоритм
Идея основного алгоритма заключается в старом правиле: найти участок длиной 1, затем использовать это событие в качестве префикса и добавить другие события, чтобы проверить, может ли оно стать HEWU.Следует отметить, что каждый раз, когда событие продлено, время этого события не может совпадать с временем префикса, разница превышает МПД
UP-Span:
MiningSimultHUE:
В основном отвечает за интеллектуальный анализ параллельных событий текущего набора событий.
MiningSerialHUE:
В основном отвечает за анализ последовательных событий текущего набора событий.
Персональное резюме
Изучив алгоритм High-Utility Pattern Mining, понять его несложно.Большинство определений добавляет измерение времени. С точки зрения псевдокода, алгоритм в целом не очень сложен, и идея примерно такая же, как у алгоритма HUI-Miner, но текущие исследования в этой области относительно невелики, и места еще много. для расширения. В этой статье впервые предлагается и успешно реализована основанная на сценариях концепция добычи полезных ископаемых. Недостатком является то, что использование только предложенного EWU в качестве граничного значения неизбежно будет слишком расплывчатым и приведет к созданию множества наборов кандидатов, которые изначально не нужны. Также необходимо использовать лучшие алгоритмы обрезки, такие как те, что используются в FHM, или изменить структуру хранения данных для повышения эффективности поиска.