Алгоритм UBER-Mine

сбор данных

Написано впереди: этот алгоритм основан на улучшении алгоритма UP-Growth и предлагает новую модель IV-UBER (модель InVestment by Utility-Based Episode Rules) для прогнозирования запасов.Использование этой модели может стать лучше, чем UP-Span и Алгоритм TSpan имеет более отличные результаты.

Discovering utility-based episode rules in complex event sequence

Образец

an icomplex event sequence

определение

Большая часть содержания может быть отнесена кАлгоритм UP-Span, вот лишь несколько дополнений:

  • указанный пользователем размер окна (WS) относится к предустановленному размеру окна, то есть к промежутку времени.
  • Окно определяется какWh=<(SEh,Th),(SEh+1,Th+1),,(SEh+WS1,Th+WS1)>W^{\rm h} = <(SE_{\rm h}, T_{\rm h}), \, (SE_{\rm h+1}, T_{\rm h+1}), \, \ldots, \, (SE_{\rm h+WS-1}, T_{\rm h+WS-1})>1h(CW ⁣S+1)1 \le h \le (\mid C \mid - W\!S + 1),C\mid C \midотносится к сложным событиямпоследовательностьпромежуток времени
  • В этой статье продолжительность события определяется как промежуток времени Фактически, это определение используется в большинстве связанных статей по анализу полезности участков.
  • Параллельное соединение (одновременная конкатенация) выражается какальфабета\alpha \, \square \, \beta(какой странный способ выразить это); последовательная конкатенация выражается какальфабета\alpha \, \cdot \, \beta
  • Моменты окончания дополнительно определяются в документеET ⁣Set(альфа)={Te1,Ten}ET\!Set(\alpha) = \lbrace T_{\rm e}^1, \, \ldots \, T_{\rm e}^{\rm n} \rbrace(Это не было упомянуто в предыдущей статье)
  • Происходит в окне (вхождение в окне), как следует из названия, больше, чем событиеальфа\alphaПромежуток времени окна, таких окон может быть много, поwoSet(альфа)\mid woSet(\alpha) \midвыражать
  • Полезность всей сложной последовательности событийCUWS=i=WS+1uSEiu(uSEi,Ti)CU_{\rm WS} = \sum_{\rm i=WS+1}^{\rm \mid u-SE_{\rm i} \mid}u(u-SE_{\rm i}, \, T_{\rm i}),Но почему это так устроено?(Следует отметить, чтоuSEiu-SE_{\rm i}Относится к общей стоимости полезности в определенный момент времени, по причинам написания».-” это дефис, а не минус)
  • Максимальное значение полезности определяется какMU ⁣R(X)=i=1ku(uS ⁣Epi+1,pi+1)MU\!R(X) = \sum_{\rm i=1}^{\rm k}u(uS\!E_{\rm p_{\rm i+1}}, \, p_{\rm i} + 1), функция состоит в том, чтобы обеспечить свойство закрытия вниз, то есть подмножество неэффективно, тогда набор расширения должен быть неэффективным

алгоритм

UBER-Mine

Основная идея состоит в том, чтобы начать майнинг с участка длины 1, найти все эффективные 1-эпизоды, а затем объединить их последовательно и параллельно, чтобы получить высокоэффективный участок высокого порядка.

UBER-Mine main algorithm

MineSimuUBER

Когда объединенный эпизод имеет другие эпизоды до момента времени (поскольку здесь добавляется временной интервал, алгоритм постепенно расширяется от одного момента времени до периода времени), эти два эпизода можно рассматривать как одновременные в этом временном интервале (одновременные ) бывает

MineSimuUBER method

MineSerialUBER

Принимая длину окна как промежуток времени, события, которые происходят в этом диапазоне, могут использоваться в качестве последовательных объектов

MineSerialUBER method

CalculateUtility

Calculate Utility method

GenUBER

ядроUP-GrowhthПри применении алгоритма следует отметить, что для построения UR-дерева этот алгоритм в определенной степени модифицирует предыдущий метод последовательно-параллельного соединения, становится моментом времени в качестве условия поиска, строит заголовок- table, а затем сохраняет всю ключевую информацию в UR-Tree.

GenUBER method

Суммировать

Алгоритм улучшен на основе алгоритма UP-Growth, что еще раз показывает, что древовидная структура обладает сильной масштабируемостью.За счет настройки различных индексов для построения таблицы вся ключевая информация сохраняется в дереве для экономии времени. Я лично считаю, что подготовка последовательности событий на ранней стадии алгоритма UBER-Mine слишком длинная и громоздкая.Хотя он также использует закрытый характер для обрезки ветвей, сам алгоритм UP-Growth имеет сложное дерево- процесс строительства, что еще больше увеличит количество операций. Можно ли установить другие индексные переменные для повышения эффективности? Или использовать другие стратегии, которые могут эффективно оптимизировать UP-Growth? (Некоторые стратегии основаны на базе данных транзакций, поэтому не обязательно применимы к базе данных последовательностей)