Написано ранее: иметь дело с реальными наборами данных (то есть постоянно меняющимися), как извлекать и анализировать эти динамические наборы данных или один и тот же набор данных в два разных момента времени — очень ценная проблема; поэтому в этой статье предлагается новая концепция называется формирующимся паттерном для представления этих опорСущественные измененияи разработать более эффективный алгоритм классификации
Efficient Mining of Emerging Patterns: Discovering Trends and Differences
мотивация
Во временной базе данных обычно изучают изменения наборов элементов: например, в финансовой сфере тенденции можно прогнозировать, анализируя изменения наборов элементов; например, сравнивая изменения различных категорий элементов, сравнительный анализ может быть выполнено; или когда общая база слишком велика, изменение доли общего объема данных не очевидно, но фактическое значение сильно меняется и т. д. В соответствии с указанными выше требованиями в данной статье предлагается формирующаяся модель (ВП) для количественного описания этих изменений.
определение
-
пункт(item): наименьшая единица в наборе данных, которую нельзя разделить дальше, используйтевыражать
-
наборы предметов (itemset): Состоит из нескольких разных элементов, используясказал, из которых-Указывает, что набор содержитПредметы
-
Очень большие/маленькие наборы предметов (large/small itemset): при минимальном пороге поддержки(в процентах), если = , затем используйтевыраженный внабор всех наборов элементов, которые удовлетворяют неравенству в , и наоборот
-
закрытый интервал(interval closed): любой элемент интервала не меньше левой границы и не больше ограниченного, изакрытый интервал
-
предмет сделки (transaction): Он состоит из нескольких разных элементов, которые можно разделить на несколько наборов элементов.выражать
-
Служба поддержки(support): измерить, является ли набор элементов/элементов количественным показателем, необходимым пользователю, формула расчета = Молекулярное представлениев наборе данныхОбщее количество вхождений в , а знаменатель указывает, сколько элементов транзакций содержит набор данных; в этой статье используется скорость изменения поддержки (GrowthRate) для измерения того, нужен ли элемент/набор элементов
- когда= 0 и= 0, то= 0;
- когда= 0 и0, тогда = ;
- в противном случае, =
в,исоответственнов исходном наборе данныхи измененный набор данныхподдержка в ив порядке после
-
Поскольку алгоритм учитывает скорость изменения, более интуитивно понятно описать проблему с двумерными координатами, как показано на следующем рисунке.
в соответствии с,иТри условия могут быть получены 1, 2 и 3 три интервала добычи EP,
- Интервал 1: Ниже обоих предустановленных порогов одновременно, т.е.Доля этого пункта в целом очень мала, но ситуация сильно изменилась до и после, к сожалению, в настоящее время нет хорошего решения этой ситуации
- Интервал 2: основной объект исследования этой статьи, пространство поиска ограничено самыми большими наборами элементов в двух наборах данных до и после в качестве границы (т. е. прямоугольником).) быстро и точно добывать все ОИ;например всплеск продаж
- Интервал 3: больше двух предустановленных порогов одновременно, что означаетБаза этого пункта очень велика, и изменение нельзя четко проследить только через числовое значение, его нужно выделить в виде коэффициента.
-
граница(border): форма , > Такие упорядоченные пары называются границами, гделевая граница,правая граница (Ps. Обратите внимание, что эти две границы являются наборами, а не значением, поэтому их можно рассматривать какминимальный наборимаксимальный набор), поэтому отрезок [, ] ограничен , >
- Точно так же в качестве границ можно использовать сверхбольшие/маленькие наборы элементов.ивыражать
- Во-вторых, в наборе данныхдолжно бытьпустой набор(не может существовать меньших границ), для этого, чтобы найти все EP, просто укажитеПросто
алгоритм
Border-Diff
Процесс в основном заключается в использовании разницы между парой границ для получения новой границы.
Еще немного пояснений"non-minimal itemsets”: Как видно из исходного текста, после окончания первого шага базовой версии Border-Diff,= {{1}, {1, 4}, {1, 3}, {1, 3, 4}, {1, 2}, {1, 2, 4}, {1, 2, 3}, {2 , 3, 4}} (обратите внимание, что они написаны в порядке перечисления); то, что нужно удалить на втором шаге, этосуперсет(это,non-minimal itemsets), сохранить наименьшее подмножество (надмножество можно получить, расширив дерево перечисления подмножеств); таким образом, окончательный результат = {{1}, {2, 3, 4}}