Впереди написано: интеллектуальный анализ последовательностей более обширен, чем простой служебный интеллектуальный анализ, потому что добавление измерения времени — это проблема, с которой мы часто сталкиваемся в нашей повседневной жизни, конечно, это также усложнит проблему. Изучив алгоритм USpan, вы сможете изначально понять, что такое интеллектуальный анализ последовательности процессов, и заложить основу для последующих исследований.
An Efficient Algorithm for Mining High Utility Sequential Patterns
Образец
quality of items
sequence database
определение
определение ценности полезности иHUI-MinerТаким же образом рассчитываются значения полезности предметов, наборов предметов, элементов транзакций и наборов данных, только здесь делаются некоторые дополнения:
-
Пункт определяется как (), значение полезности отдельного предмета определяется как, номер которого в последовательности равен
-
Набор элементов определяется как, следует отметить, что выражение набора элементов длиной всего 1 в статье без квадратных скобок, и каждый элемент в наборе элементов расположен в алфавитном порядке.
-
Последовательность состоит из набора наборов элементов,
-
База данных последовательностей состоит из нескольких последовательностей.Чтобы различать последовательности, каждой последовательности присваивается уникальный идентификатор, как показано в таблице 2 в приведенном выше примере.
-
Порядок между элементами, наборами элементов и последовательностями обычно в алфавитном порядке, с I-Concatenate (параллельное расширение, без изменения размера последовательности) и S-Concatenate (последовательное расширение, размер последовательности плюс один).
Примеры из статьи следующие:
- исходная последовательность -размер 2,: I-Concatenate, размер последовательности после расширения по-прежнему равен 2;: S-Concatenate, размер расширенной последовательности равен 3
- когда последовательностьэто последовательностьНа основе I-Concatenate,получается на основе S-конкатената, то
- когда последовательностьиОн получается на основе того же метода расширения, и элементы в двух последовательностях сравниваются в алфавитном порядке, например
-
Лексикографическое дерево q-последовательности (LQS-Tree) строится по следующим правилам:
-
Корневой узел пуст, каждый узел представляет собой последовательность, и его значение полезности необходимо записать.
-
Любой узел получается с помощью I-Concatenate или S-Concatenate родительского узла.
-
Все дочерние элементы любого узла перечислены в возрастающем алфавитном порядке.
-
-
Последовательный шаблон с высокой полезностью по-прежнему отличается от набора элементов с высокой полезностью (HUI), потому что в последовательности будет несколько повторяющихся q-подпоследовательностей, например, вПоследовательность нейтроновимеюти, алгоритм предусматривает, что максимальное значение элемента полезности используется в качестве значения полезности подпоследовательности, т. е., общая формула,Сейчас. когдатогда последовательность является последовательностью с высокой полезностью
Ps. Почему бы не использовать накопительный метод? Не потому ли, что это упорядоченная последовательность и накопление не имеет никакого смысла? подумай об этом
-
Оставшаяся полезность предметов относится к сумме значений полезностей всех предметов в текущей последовательности после текущего предмета, то есть следующихutility matrixЗначение справа от каждой записи в круглых скобках ()
Ps. Оригинальная статья подробно описана в Разделе 4.4.
Стратегия
utility matrix
С помощью этой матричной таблицы мы можем получить информацию о комбинации (поскольку за раз расширяется только один бит, поэтому унарные элементы образуют двоичные наборы элементов, а двоичные элементы формируют троичные наборы элементов...) Например: элементВыполните расширение I-Concatenation, чтобы получить, просто поместите два столбца q-itemset 1 и q-itemset 3иПолезные значения , можно сложить, т. е.; Если даРазверните S-конкатенацию, чтобы получить, q-itemset 2 можно найти из таблицы 3:и q-элемент 3:,Сейчас(почему нетЭто потому, что существует порядок между q-наборами элементов, если вычислениеТогда вы должны получитьпоследовательность)
width pruning
Основная функция состоит в том, чтобы отфильтровать как можно меньше наборов элементов-кандидатов для дальнейшей фильтрации, чтобы получить реальную последовательность набора элементов с высокой полезностью на основе взвешенного по последовательности свойства замыкания вниз (SDCP), то есть использования взвешенного по последовательности (SWU, метод расчета соответствует TWU), например)
Теорема: когда последовательностьимеют, то все расширенные последовательности, основанные на этой последовательности, являются последовательностями с низкой полезностью и могут быть сокращены (см. Раздел 4.3 исходной статьи для процесса доказательства)
depth pruning
в последовательностиив, есть, так когда, мы можем перестать углубляться в текущий узел и вместо этого вернуться к предыдущему узлу. вэто первая совпадающая подпоследовательность в последовательностипоследовательности, а пары подпоследовательностейРасширение также соответствует с первогоДля начала поместите последние элементы один за другим, используя I-конкатенацию или S-конкатенацию, чтобы получить более длинную расширенную подпоследовательность. Если расширение начинается со второй совпавшей подпоследовательности, ее значение полезности всегда ниже, чем расширение первой совпавшей подпоследовательности (поскольку элементов для расширения не так много).
алгоритм
Суммировать
Алгоритм USpan нетрудно понять, потому что он не использует слишком много стратегий оптимизации или сложных структур хранения, поэтому он может ясно дать людям понять, что такое анализ последовательности и каков основной процесс анализа последовательности. процедуры доказывания и рассуждения. Но в то же время я также обнаружил, что набор тестовых данных алгоритма основан на форме транзакции, без добавления эталонного объекта временной точки, он не является общим, и реальная масштабируемость не является сильной.