Впереди написано: это новейший алгоритм высокоэффективного интеллектуального анализа последовательностей в 2020 году. Он основан на общем LQS-дереве в сочетании со структурой списка, дополненном двумя эффективными стратегиями сокращения, LAR и IIP, что значительно сокращает майнинг. , Ресурсы, потребляемые в процессе, и по сравнению с тремя алгоритмами USpan, HUS-Span и ProUM в ходе экспериментов, производительность алгоритма HUSP-ULL является лучшей.
Fast Utility Mining on Sequence Data
Следует подчеркнуть, что анализ последовательности должен основываться на упорядоченном состоянии всех элементов (по причинам, которые можно найти вАлгоритм SPADEиАлгоритм HUSRMПримечания), конкретные правила сортировки задаются в соответствии с особенностями самого алгоритма, единого принципа нет.
определение
- Символ «q-» относится к «количественному», например, «q-последовательность» относится к последовательности, содержащей количественный параметр (, 2)(, 1)}, {(, 3)}>), "последовательность" относится к }, {}>, то же, что и "q-itemset", "q-item"
- установить "q-последовательность" = <, , , >, "последовательность" = <, , , > если = и составляютэлементы сЕсли элементы одинаковы, то это называетсясовпадение(); очевидно, последовательности могут соответствовать несколько q-последовательностей (количество является переменной), таких как , 1}, {, 1}> или , 3}, {, 2}> <{}, {}>
- событиедаПодсобытия хорошо оценены, но для "q-itemset", тогда и только тогда, когда он составляетЭлементы состоят изПодмножество элементов и соответствующее количество должны быть согласованы, что отличается от определения отношения включения набора элементов; аналогично, последовательностьитот же критерий
- Потому что есть несколькосовпадение, поэтому при вычислении "последовательности"Когда значение полезности , возьмите самое длинное совпадающее значение полезности ( = max{}),дальше,Полное значение полезности в наборе данных рассчитывается как = {}; Для простоты позиция последнего элемента каждого совпадения определяется как точка соединения, где первая точка соединения называется начальной точкой, например пусть= , то в = <{(, 2)(c, 3)}, {(, 3)(, 1)(, 2)}, {(, 4)(, 5)(, 4)}, {(, 3)}> Точки соединения — 4, 7, 7, а начальная точка соединения — 4 (Ps.потому что в заказанном состоянии она изначать соединение вместо)
- для "последовательности"Существует два метода расширения (I-конкатенация и S-конкатенация): I-конкатенация эквивалентнаРасширение последовательности по вертикали не увеличивает длину исходной последовательности (>); S-конкатенация эквивалентна помещению элементаРасширение последовательности по горизонтали увеличит длину исходной последовательности на 1 (>)
- Чтобы сократить время сопоставления последовательностей и уменьшить их количество, для каждой подходящей последовательности создается новая структура данных Utility-Linked-List Structure, конкретное содержание которой показано на следующем рисунке:
, по сравнению со структурой данных, используемой другими алгоритмами, структура UL-List более компактна и не хранит много ключевой информации (с использованием технологии проецирования)
Стратегия
свойство замыкания вниз
Это классическая верхняя граница, используемая большинством алгоритмов майнинга, которые могут эффективно удалять элементы, напрямую связанные с корневым узлом, и избегать создания слишком большого количества бесполезных кандидатов высокого порядка.кликните сюда
утилита расширения последовательности
В соответствии с концепцией остаточной полезности в алгоритме HUI-Miner для последовательности сумма значений полезности ее расширяемых элементов представляет максимальную степень расширения последовательности. "последовательность"Расширение определяется как = {}, утилита расширения последовательности = { + }, то имеет место теорема,установлено, то можно сделать вывод, что если "последовательность"изменьше порога, нет необходимостибыть расширенным (процесс доказательстваАлгоритм ProUMв деталях)
утилита расширения префикса
Недостаток очевиден, он не доказываетсама по себе неэффективная последовательность, и если вычислить ее вручнуюМожно обнаружить, что она намного выше, чем реальная величина полезности (Ps.Повторный расчет значения t). Поэтому в статье используется более компактная верхняя граница = {}, = max{ + }(Ps. Принятие максимального значения на самом деле является верхней границей); по той же причине существуют теоремы,учредил (Ps. Процесс доказательства подробно описан в статье)
в соответствии с, в документе предлагаются две новые стратегии обрезки:
- LAR pruning strategy: Для двух различных способов соединения последовательности устанавливаются следующие неравенства: 1) max{} { }; 2) макс{} { },вэто "последовательность"Кандидаты под разные способы подключения (Ps.Это не сложно понять, сам ПЭУ рассчитывается по максимальному значению) когда верхнее граничное значение меньше порога, можно сделать вывод о кандидатеявляется малополезным предметом и не может быть использован длядля масштабирования эта стратегия позволяет избежать избыточныхрассчитать
- IIP pruning strategy: данная "последовательность"и любой предмет,если{ () ()} меньше порога, то можно сделать вывод, чтодаНерелевантный член , в последующей пареи его расширенияможно игнорировать непосредственно в процессе обработки, эта стратегия может еще больше уменьшить значение оставшегося члена полезности и сузить диапазон расширения последовательности
Поддельный код
Main algorithm
PGrwoth procedure
Judge procedure
Суммировать
Алгоритм HUSP-ULL основан на предыдущемConcept разрабатывает две новые стратегии обрезки и подробно анализирует их.,иотношения между тремя. Основное внимание в статье уделяется анализу того, как уменьшить размер LQS-дерева с помощью новой стратегии обрезки.Структура данных UL-списка не такая, как предполагалось, и не создается для каждой подпоследовательности (она действительно невозможно подумать об этом, слишком много кандидатов на последовательность), но для каждого элемента транзакции (полная последовательность), и в статье было проведено большое количество экспериментов и подробных сравнительных обсуждений, которые очень стоит изучить и исследовать. Кроме того, чтобы отличить его от задачи интеллектуального анализа эпизодов, алгоритм выполняет служебный интеллектуальный анализ, при этом каждый элемент транзакции не зависит друг от друга.