Написано впереди: Прошло много времени с момента предыдущего изучения алгоритма USpan. На этот раз я изучу анализ последовательности. Эта статья решает связь вывода правила ассоциации и продвигает предыдущую работу по шаблонам последовательности интеллектуального анализа на шаг вперед; стратегия, используемая алгоритмом HUSRM Есть еще, нужно потратить некоторые усилия на исследование
Efficient Mining of High-Utility Sequential Rules
Образец
sequence dataset
utility table
определение
Основное определение может относиться кUSpanПримечание к этому алгоритму, здесь только некоторые дополнения
- Предполагается, что последовательное правило существует в двух наборах элементов.иимеют,и, правило последовательностисвязанные средствав той же последовательности, наборнабор элементов после появлениятакже происходит, размер правила последовательности, использовать одновременноУказывает правило включениявсе последовательности ,Указывает правило включенияВсе последовательности фронта
- Поддержка правила (support of rule) правила ассоциацииПоддержка в наборе данных также выражается в виде соотношения, а расчетное выражение имеет вид
- Доверие к правилу (достоверность правила) правило ассоциацииДостоверность набора данных также выражается в виде отношения, а расчетное выражение имеет вид
- Полезность последовательного правила, когда правилов последовательностиКогда существует в , его значение полезности рассчитывается как,есличас,; аналогичное рассуждение может быть получено, общая полезность правила во всем наборе данных равна
- высокоэффективный последовательный анализ правил с учетом трех пороговых значений,и, когда значение, соответствующее правилу, одновременно превышает пороговое значение, мы рассматриваем правило как правило последовательности с высокой полезностью (то есть ограничений больше)
Одна вещь, которую следует отметить в отношении правил майнинга, — это метод расширения, который также объясняется в тексте размеромПравила постепенно расширяются влево и вправо, чтобы получить более длинные интересные правила, но следует отметить, что порядок расширения влево и вправо и рекурсивный метод сильно повлияют на окончательные результаты майнинга; например, правила:Вы можете либо развернуть влево, а затем развернуть вправо, либо наоборот, чтобы получить новые правила:, есть возможность сгенерировать два новых правила, другой случайиможно расширить слеваиполучить такие же новые правила, решение описано в определении ниже
-
расширяемость
-
левое расширение для правили пункт, когда дляимеюти, который продолжается влево до
-
То же верно и для правого расширения, когда дляимеюти, право которого распространяется на
-
Следует добавить, что,Это относится к лексикографическому расположению между элементами, которое используется для решения проблемы, заключающейся в том, что разные правила генерируют одни и те же новые правила из-за расширения; поскольку элемент может быть расширен как влево, так и вправо, это обычно используется по умолчанию. сначала, затем правое расширение и левое расширение могут продолжаться в правом расширении, но только правое расширение может быть выполнено в левом расширении, чтобы решить проблему новых правил, когда одно и то же правило повторяется из-за разных порядков расширения.
-
-
Оцененная последовательностью полезность предмета имеет тот же эффект, что иTWU, расчетное выражение=,вдаОбщая полезность последовательности, такая же, какTU, что означает, что расчет ведется по всему набору данных, все включенияСумма значений полезности последовательности ; аналогично для правил, состоящих из разных терминовТаким же образом рассчитывается предполагаемая полезность ,=, роль этих оценок состоит в том, чтобы помочь определить, является ли текущий элемент/правило потенциально интересным, если они не меньше множества, то мы думаем, что эти пункты/правила могут быть расширены и, вероятно, будут эффективными.
-
Запись полезной таблицы (utility-table) Это новая структура хранения, разработанная отдельно для записи всех задействованных правил.Информация о полезности использованияПредставление (структура служебного списка), в нем много фрагментов данных, формат,в:
- sid: Указывает, что он содержитсерийный номер ()
- iutil:Выражатьзначение полезности в текущей последовательности
- lutil: Указывает те элементы в текущей последовательности, которые можно использовать дляпровестиЛевыйсумма значений полезности развернутых терминов
- rutil: Указывает те элементы в текущей последовательности, которые можно использовать дляпровестиправильносумма значений полезности развернутых терминов
- lrutil: Указывает те элементы в текущей последовательности, которые можно использовать дляпровестиоСумма расширенных значений полезности
Значения полезности последних трех расширений записи действительно могут использоваться как часть оценочной стоимости, что удобно дляПровести обрезку, в процессе использования необходимо уточнить, какой способ расширения в данный момент осуществляется, и усвоить элементы расширения.и расширенные предметы/наборы предметовОтношения между ними легко понять; далее мы продолжаем знакомить вас с тем, как рассчитать правила расширения с помощью таблицы полезности, учитывая расширенные правила., правило, расширениеа такжеи:
- sid: Это должно быть согласовано, потому что правило расширения должно быть в той же последовательности, что и исходное правило.
- iutil':=+
- lutil':=--, какой срокне может быть правиломизЛевыйрасширения, но правилаизЛевыйэлемент расширения, параллельный элементесли бы это было правиломизЛевыйрасширения, то также вычтите его значение полезности, в противном случае нет необходимости вычитать терминта часть стоимости
- rutil':=--, ограничения такие же, как и выше, просто поставьтеЛевыйрасширяться доправильнорасширять
- lrutil':=--, какой срокне может быть правиломизорасширения, но правилаизорасширение, параллельный элементесли бы это было правиломизорасширения, то также вычтите его значение полезности, в противном случае нет необходимости вычитать терминта часть стоимости
Необходимость расширенного набора после вычитания предметовиПолезная ценностьправильноснова расширитьЛевыйрасширять
-
Достоверность правила расширения с использованием битового векторапредставлять предметв какой последовательности они появились, используйтезначит появиться,Указывает на отсутствие; затем побитовый берется битовый вектор каждого элемента в наборе элементовиоперация, в конце концовКоличество - это набор, правилоМетод расчета тот же, а поддержку можно получить интуитивно через таблицу полезностей, например=1111 =1011 =1011
Ps. Хотя документ выглядит так, как будто он использует длинный массив для хранения этих 0 и 1, в коде он фактически использует хэш-карту для хранения соответствующих пар ключ-значение и напрямую вычисляет битовый вектор нового правила, сравнивая ключи
Стратегия
Поскольку стратегия обрезки включает в себя два хорошо изученных поля майнинга (частую и полезность), обрезка осуществляется через их соответствующую антимонотонность, пока одно условие не выполняется, мы удаляем узел и не проводим следующее расширение. Работа,HUI-MinerЭта заметка содержит подробное введение
utility-table
фактическиutility-listИнформация, хранящаяся в структуре, очень интуитивно понятна, поскольку вся информация, относящаяся к элементу/набору элементов, хранится в этом списке, нам нужно только объединить эти известные условия, чтобы получить ключевую информацию.
- потому что каждое правилоСоставьте список отдельно, который записывает все вхождения правила, так что, естественно, есть=
- Аналогично, для правилФормула для расчета степени поддержки:=
- +++, поэтому таблица полезности на самом деле предоставляет более компактное граничное значение (оценочное значение, которое можно получить, уточнив формулу)
- Если правилопосле одного разаоРасширение получает новые правила,имеют+++(Потому что с каждым расширением существует меньше последовательностей, содержащих это новое правило)
- если правилопосле одного разаЛевыйРасширение получает новые правила,имеют++
compact utility-table
В ходе эксперимента авторы наблюдали две закономерности:
-
существуетЛевыйВо время расширения:
- Он не всегда используется, поэтому вам не нужно вычислять значение
- иСумма всегда используется, поэтому их сумму можно использовать вместо двух значений.
Очевидно, что это сделает таблицу меньше и займет меньше времени на построение.
-
В любой последовательности, в правилепервый разМесто появленияпослепредметы можно использовать какправильнорасширяться, соответственно, вДоможно использовать какЛевыйрасширять
алгоритм
HUSRM algorithm
Left Expension
Right Expension
Суммировать
Вышеизложенное представляет собой полное содержание алгоритма HUSRM. Он основан на идее списка полезностей и строит правила более высокого уровня непосредственно через список без обхода набора данных. Это также прорывная работа в области высокоуровневых вычислений. интеллектуальный анализ правил последовательности утилит. Лично мне очень интересно, что автор разбил исходный алгоритм на четыре оптимизированные версии разной степени для экспериментального сравнения. Самая большая проблема этого типа алгоритма заключается в том, что время выполнения слишком велико.Из-за сложного процесса построения экспериментальные результаты многих алгоритмов не очень хороши, и необходимы дополнительные исследования, чтобы определить, существует ли более эффективная структура хранения. для упрощения процесса строительства или нового строительства идеи.