Алгоритм TSpan

сбор данных

Написано выше: Этот алгоритм внес множество улучшений в алгоритм UP-Span, значительно уменьшив количество наборов элементов-кандидатов, что также является результатом дальнейшей оптимизации на основе алгоритма UP-Span.Общая идея дизайна согласуется. Изюминкой является то, что структура хранения упорядоченного префиксного дерева разработана таким образом, чтобы информация в процессе майнинга могла быть эффективно сохранена без повторных вычислений.Что еще более важно, алгоритм предлагает две более компактные верхние границы, чем EWU, который очень большой , сузил область поиска

High Utility Episode Mining Made Practical and Fast

Образец

Complex Event Sequence

a simple complex event sequence

External Utility of Events

External Utility of Events

определение

Большинство основных определений могут относиться кUP-SpanЭтот алгоритм, вот лишь некоторые дополнения:

  • Полезность эпизода определяется какu(α)=mo(α)еmoSet(α)u(α,mo(α))/u(CES)u(\alpha) = \sum_{mo(\alpha) \in moSet(\alpha)}u(\alpha, \, mo(\alpha)) / u(CES)mo(α)mo(\alpha)ссылаясь на сюжетα\alphaМинимум повторений во всей последовательности событий (например, человек тратит одинаковое количество времени на прием пищи в три разных времени дня);u(CES)u(CES)Относится к общей ценности полезности всей сложной последовательности событий, здесь в виде коэффициента для повышения достоверности.

  • MTD (maximum time duration) — это временное окно, а это значит, что специально учитываются только правила ассоциации между событиями, которые происходят в пределах этого отрезка времени, иначе нагрузка будет бесконечной, а своевременность результатов не будет такой сильной

  • Полезность, взвешенная по эпизодам, похожа наTWU, один участокα\alphaизEWU(α)EWU(\alpha)Формула расчета:

    EWU(α,mo(α))=i=1nu(SEi,Ti)+i=es+MTD1u(CESi,Ti)EWU(α)=i=1kEWU(α,mo(α)i)/u(CES)EWU(\alpha, mo(\alpha)) = \sum_{\rm i = 1}^{\rm n}u(SE_{\rm i}, \, T_{\rm i}) + \sum_{\rm i = e}^{\rm s+MTD-1}u(CES_{\rm i}, \, T_{\rm i}) \\ EWU(\alpha) = \sum_{\rm i=1}^{\rm k}EWU(\alpha, \, mo(\alpha)_{\rm i}) / u(CES)

    пс потому чтоmo(α)=[Ts,Te]mo(\alpha) = [T_{\rm s}, \, T_{\rm e}],такssявляется начальным моментом времени,eeэто момент окончания времени, вы должны понятьEWU(α,mo(α))EWU(\alpha, mo(\alpha))Вычислительный смысл (можно понять по аналогии с TWU/SWU)

  • Способ расширения сюжета — добавлять события в хвост по одному, когда временной отрезок не меняется, это называетсяI-Concatenation, когда промежуток времени становится длиннее, называетсяS-Concatenation

  • Лексикографическое префиксное дерево строит дерево с полной информацией из корневого узла в соответствии с методом расширения, определенным в предыдущей статье.Каждый узел упорядочен.Схема выглядит следующим образом:

    lexicographic prefix tree

    Ps. Хорошо видно, что это дерево очень большое без обрезки.Для этого мы можем разделить процесс построения и разбить большое дерево на четыре локальных маленьких дерева (корневой узел a, b, c, d), и тогда тот же метод можно использовать для каждого маленького дерева (эквивалентно пространству во времени) Черная сплошная линия — эффект предварительного сокращения с использованием EWU, а красная пунктирная линия — новая верхняя граница, используемая алгоритмом Эффект сокращения стратегия

Стратегия

Improved EWU for I-Concatenation

Сокращенно «IEIC», это новая верхняя граница, полученная до метода I-конкатенации. Благодаря этой верхней границе I-конкатенация может избежать графикаα\alphaЗначение полезности рассчитывается повторно, и формула расчета выглядит следующим образом:

IEIC(α,moi(α))=j=1ku(SEj,Tj)+u(IESi(α))+u(SESi(α))IEIC(α)=(u(α)+u(IES(α))+u(SES(α)))/u(CES)IEIC(\alpha, \, mo_{\rm i}(\alpha)) = \sum_{\rm j = 1}^{\rm k}u(SE_{\rm j}, \, T_{\rm j}) + u(IES_{\rm i}(\alpha)) + u(SES_{\rm i}(\alpha)) \\ IEIC(\alpha) = (u(\alpha) + u(IES(\alpha)) + u(SES(\alpha))) / u(CES)

в,IES(α)IES(\alpha)рассчитывается на графикеα\alpha, общая полезность оставшихся событий после текущего события,SES(α)SES(\alpha)это расчетный графикα\alphaПолезность событий в последующей последовательности событий (полезность событий в последующей,CESiCES_{\rm i})

Improved estimation of EWU for S-Concatenation

Сокращенно "IESC", это новая верхняя граница, полученная до метода S-конкатенации. Через эту верхнюю границу S-конкатенация может дать тот же эффект. Поскольку это последовательное соединение, необходимо учитывать меньше факторов. формула следующая:

IESC(α)=(u(α)+u(SES(α)))/u(CES)IESC(\alpha) = (u(\alpha) + u(SES(\alpha))) / u(CES)

алгоритм

I-Concatenation

Это можно рассматривать как параллельное соединение, этот процесс проще, пока новое событиеβ\betaвисеть прямо на участкеα\alphaХвост может быть, нужно обратить внимание на время их окончанияTeT_{\rm e}должны быть последовательными

I-Concatenation

S-Concatenation

Его можно рассматривать как последовательное соединение, но оно более сложное, необходимо отфильтровывать пересекающиеся периоды времени, чтобы избежать повторных вычислений, идеи других процессов согласуются с параллельными соединениями.

S-Concatenation

Prefix-Growth

другое имя в газетеTSpanTSpan, что также является аббревиатурой этого алгоритма

TSpan

Суммировать

Некоторые доказательства алгоритма TSpan опущены (то, что я нашел, может быть версией конференции). Судя по экспериментальным результатам, он намного лучше, чем UP-Span, и две предложенные новые верхние границы действительно могут сыграть большую роль в экранировании (но я смотрю, насколько он похожHUI-MinerиEFIMОставшаяся верхняя граница утилиты) и я заметил, что когда средняя длина набора тестовых данных слишком велика, количество сгенерированных узлов-кандидатов и время выполнения резко увеличиваются, что показывает, что обрезки все еще недостаточно. Самое сложное это что составление событий не так просто, как составление наборов элементов. Я думаю, что можно рассматривать только последовательную или параллельную оптимизацию отсечения, но не повлияет ли это на другой процесс майнинга, потому что некоторые узлы обрезаются?