Написано ранее: непрерывный последовательный анализ шаблонов является очень распространенной задачей в нашей повседневной жизни, такой как веб-журналы, анализ последовательности ДНК, траектории движения объектов и т. д., но существующие алгоритмы анализа не могут вводить данные для эффективного анализа, потому что последовательности, которые они обычно get находятся в состоянии разъединения и фрагментации между элементами, поэтому этот алгоритм предлагает лучшее решение проблемы постоянного извлечения сложных последовательностей.
Utility-driven Mining of Contiguous Sequences
мотивация
В исходном интеллектуальном анализе последовательности наборов элементов полученные результаты не учитывают взаимосвязь между элементами в результате.Цель этого алгоритма состоит в том, чтобы решить проблему анализа упорядоченных и непрерывных подпоследовательностей по упорядоченным правилам.
определение
-
пункт(item): наименьшая единица в наборе данных, сзначит, ограниченное количество
-
наборы предметов (itemset): состоит из конечного числа элементов, непустых, спредставляет, а лексикографический порядок по умолчанию между каждым элементом композиции
-
последовательность(sequence): состоит из конечного числа наборов элементов, непустых, спредставлены, а сформированные наборы товаров упорядочены
-
Количественный термин (quantitative item): Чтобы присвоить элементам атрибуты полезности и количества, используйте (:) или-предмет означает
-
Наборы квантованных элементов (quantitative itemset): то же, что и выше, ограничено-элементы составляются, а составные элементы упорядочены
-
последовательность квантования (quantitative sequence): то же, что и выше, ограничено-наборы предметов составлены, упорядочены и имеют уникальные меткиSID
-
непрерывная последовательность (contiguous sequence): учитывая две разные последовательностии(нижний индекс указывает количество различных наборов элементов, содержащихся в последовательности), для любого,имеют, , , установлено, тоданепрерывная подпоследовательность ; в свою очередь,даПоследовательные суперпоследовательности [например, }, {}> и }, {}, {}>】
-
совпадение(matching): данный набор элементови квантованные наборы элементов, когда есть и только для любого,имеют = , это называетсясовпадение, Упоминается как; Последовательность такая же, очевидно, в зависимости от атрибута количества,может соответствовать нескольким
-
пример (instance): данная последовательностьи последовательность квантования(Нижний индекс указывает количество различных наборов элементов, содержащихся в последовательности,),как, и, ,имеютиустановлено,в крайний срокимеютЭкземпляр , в зависимости от того, где находится отсечка, по-видимому, существуетправильнонесколько разных экземпляров
Ps. В статье множество положений отсечки специально обозначено как EP(S, Q), и когда в Q есть хотя бы один экземпляр S, говорят, что Q содержит S, обозначенное как
-
полезность (utility): Для последовательностей в квантованииПервыйквантованные элементы в наборе квантованных элементов, его значение полезности рассчитывается как = [То есть количество * прибыль]; это рассуждение,
- Включаютквантованные наборы элементовФормула расчета ценности полезности: = ;
- оПолезность экземпляра = ;
- Поскольку существует несколько экземпляров, в качестве оценки берется максимальное значение. = max{};
- Наконец, последовательностьв наборе данныхЗначение полезности в =
-
значение полезности веса последовательности (sequence-weighted utilization, SWU): это оценочное значение с замыканием вниз, которое можно использовать в качестве условия оценки для сокращения, и его выражениеSWU() = [Но это очень приблизительная оценка, объясненная в разделе «Стратегия сокращения GUIP»]
-
Высокоэффективный режим непрерывной последовательности (high-utility contiguous sequential pattern): Согласно определению ценности полезности в предыдущем пункте, последовательностьдаHUCSPтогда и только тогда, когда значение полезности не меньше,минимальный порог, установленный пользователем в виде процента
-
расширение (extension): Любые наборы элементов низкого порядка могут быть объединены в наборы элементов высокого порядка с помощью определенных методов. При анализе последовательностей обычно одновременно расширяется только один элемент.и пункт, в этой статье представлены два метода расширения:
- расширение элемента (I-extension):будетнепосредственно расширятьНа последнем наборе элементов , обозначенном как > обратите внимание, что эта операция не увеличивает длину последовательности,
- расширение последовательности (s-extension):будетПоскольку новый набор предметов расширяется вв конце помечается как >, это сделаетдлина плюс 1
-
расширение ((extension item):данный, и,вдапоследний срок, = {, , },Так,
- осуществуетВверхI-extensionНабор обозначается какIitem(, ); аналогично, вНабор выше обозначается какIitem() = Iitem(, )
- осуществуетВверхS-extensionНабор обозначается какSitem(, ); аналогично, вНабор выше обозначается какSitem() = Sitem(, )
-
Остаточная последовательность (remaining sequence):существуетаккуратныйПо правилам предполагается, чтосуществуетизЕсть экземпляр на локации, осуществуетОставшаяся последовательность на обозначается как, который также можно назватьПоследовательность суффиксов ; соответственно, формула полезности оставшейся последовательности имеет вид =
-
расширенная полезность предмета (item-extension utilization):данный, , ,В том числе, = , даэкземпляр ,выраженный ввнаборы предметов,,Так,
- Для I-расширения ( = ), с и толькочас,IEU() = + + ;Напротив,IEU() = 0
- Для S-расширения ( = ), с и толькочас,IEU() = + + ;Напротив,IEU() = 0
- Для нескольких I-расширений или S-расширенийIEU() = IEU(); дальше,IEU() = IEU()
-
Список информации о последовательности (sequence information list, SIL): аналогичноСписок утилит (utility list), каждый список хранит, хотя бы одна из квантованных последовательностей-itemset, в каждом наборе элементов хранится как минимум один кортеж (-предмет, реальная полезность и остаточная полезность), схема структуры выглядит следующим образом
-
цепочка экземпляров (instance-chain, IChain): хранитEP(, ) информация и экземпляр в соответствующем положении отсечкиПолезное значение , по сути, представляет собой информацию об экземпляре сжатого хранилища, структурная диаграмма выглядит следующим образом.
Стратегия обрезки
GUIP strategy
в соответствии сопределение может знатьSWU() на самом деле намного больше, чем реальное значение полезности, и прямым результатом этого является увеличение числа недействительных кандидатов; поэтому статья в оригиналеSWUНа основе стратегии обрезки каждый раз отсеиваются неэффективные, затем обновитеи соответствующее оставшееся значение полезности, пока все элементы с низкой полезностью не будут полностью удалены
LUIP strategy
Первоначальная статья давала подробное доказательство и процесс рассуждений, поэтому я не буду здесь слишком подробно останавливаться;IEU(), когда он меньше минимального порога,и его последовательности расширения неэффективны и могут быть удалены напрямую
Поддельный код
FUCPM algorithm
Recursive search
Суммировать
Алгоритм использует жадную идею при сокращении элементов с низкой полезностью и повторяет цикл до оптимального решения.Одна из проблем, возникающих в связи с этим, заключается в том, каково потребление ресурсов при работе с различными наборами данных? С точки зрения производительности затрат памяти он хорошо работает на плотных наборах данных, но потребляет значительно больше на разреженных наборах данных, даже не так хорошо, как эталонный алгоритм для сравнения; но преимущества, которые дает это, также очень очевидны, то есть затраты времени явно малы, поскольку большое количество элементов с низкой полезностью удаляется на ранней стадии, количество сгенерированных наборов элементов высокого порядка будет намного меньше, что также подтверждается экспериментальным графиком сравнения кандидатов в статье ( за исключением разреженных наборов данных), и Экспериментальные данные сравнения стратегий также могут проиллюстрировать; в последнем эксперименте по сравнению между алгоритмом HUSPM и алгоритмом UCSPM видно, что количество смежных последовательностей слишком мало, что может уменьшить сложность анализа данных в определенной степени. Лично я считаю, что UCSPM является очень хорошим направлением исследований, и областей его применения также много.