Алгоритм MBD-LLBorder

алгоритм сбор данных

Написано ранее: иметь дело с реальными наборами данных (то есть постоянно меняющимися), как извлекать и анализировать эти динамические наборы данных или один и тот же набор данных в два разных момента времени — очень ценная проблема; поэтому в этой статье предлагается новая концепция называется формирующимся паттерном для представления этих опорСущественные измененияи разработать более эффективный алгоритм классификации

Efficient Mining of Emerging Patterns: Discovering Trends and Differences

мотивация

Во временной базе данных обычно изучают изменения наборов элементов: например, в финансовой сфере тенденции можно прогнозировать, анализируя изменения наборов элементов; например, сравнивая изменения различных категорий элементов, сравнительный анализ может быть выполнено; или когда общая база слишком велика, изменение доли общего объема данных не очевидно, но фактическое значение сильно меняется и т. д. В соответствии с указанными выше требованиями в данной статье предлагается формирующаяся модель (ВП) для количественного описания этих изменений.

определение

  • пункт(item): наименьшая единица в наборе данных, которую нельзя разделить дальше, используйтеxix_iвыражать

  • наборы предметов (itemset): Состоит из нескольких разных элементов, используяXXсказал, из которыхkk-itemsetitemsetУказывает, что набор содержитkkПредметы

  • Очень большие/маленькие наборы предметов (large/small itemset): при минимальном пороге поддержкио\sigma(в процентах), еслиsuppD(X)supp_\mathcal{D}(X) = countD(X)Dо\frac{count_\mathcal{D}(X)}{\mid \mathcal{D} \mid} \ge \sigma, затем используйтеLargeо(D)Large_\sigma(\mathcal{D})выраженный вD\mathcal{D}набор всех наборов элементов, которые удовлетворяют неравенству в , и наоборотSmallо(D)Small_\sigma(\mathcal{D})

  • закрытый интервал(interval closed): любой элемент интервала не меньше левой границы и не больше ограниченного, иLargeо(D)Large_\sigma(\mathcal{D})закрытый интервал

  • предмет сделки (transaction): Он состоит из нескольких разных элементов, которые можно разделить на несколько наборов элементов.TTвыражать

  • Служба поддержки(support): измерить, является ли набор элементов/элементов количественным показателем, необходимым пользователю, формула расчетаsuppDsupp_\mathcal{D} = countD(X)D\frac{count_\mathcal{D}(X)}{\mid \mathcal{D} \mid}Молекулярное представлениеXXв наборе данныхD\mathcal{D}Общее количество вхождений в , а знаменатель указывает, сколько элементов транзакций содержит набор данных; в этой статье используется скорость изменения поддержки (GrowthRate) для измерения того, нужен ли элемент/набор элементов

    • когдаsupp1(X)supp_1(X)= 0 иsupp2(X)supp_2(X)= 0, тоGrowthRate(X)GrowthRate(X)= 0;
    • когдаsupp1(X)supp_1(X)= 0 иsupp2(X)supp_2(X) \not=0, тогдаGrowthRate(X)GrowthRate(X) = \infty;
    • в противном случае,GrowthRate(X)GrowthRate(X) = supp2(X)supp1(X)\frac{supp_2(X)}{supp_1(X)}

    в,supp1(X)supp_1(X)иsupp2(X)supp_2(X)соответственноXXв исходном наборе данныхD1\mathcal{D}_1и измененный набор данныхD2\mathcal{D}_2поддержка в иD2\mathcal{D}_2в порядке послеD1\mathcal{D}_1

  • Поскольку алгоритм учитывает скорость изменения, более интуитивно понятно описать проблему с двумерными координатами, как показано на следующем рисунке.

    支持度边界图

    в соответствии сl1l_1,l2l_2иl3l_3Три условия могут быть получены 1, 2 и 3 три интервала добычи EP,

    • Интервал 1: Ниже обоих предустановленных порогов одновременно, т.е.Доля этого пункта в целом очень мала, но ситуация сильно изменилась до и после, к сожалению, в настоящее время нет хорошего решения этой ситуации
    • Интервал 2: основной объект исследования этой статьи, пространство поиска ограничено самыми большими наборами элементов в двух наборах данных до и после в качестве границы (т. е. прямоугольником).BCDGBCDG) быстро и точно добывать все ОИ;например всплеск продаж
    • Интервал 3: больше двух предустановленных порогов одновременно, что означаетБаза этого пункта очень велика, и изменение нельзя четко проследить только через числовое значение, его нужно выделить в виде коэффициента.
  • граница(border): форма L\mathcal{L}, R\mathcal{R}> Такие упорядоченные пары называются границами, гдеL\mathcal{L}левая граница,R\mathcal{R}правая граница (Ps. Обратите внимание, что эти две границы являются наборами, а не значением, поэтому их можно рассматривать какминимальный наборимаксимальный набор), поэтому отрезок [L\mathcal{L}, R\mathcal{R}] ограничен L\mathcal{L}, R\mathcal{R}>

    • Точно так же в качестве границ можно использовать сверхбольшие/маленькие наборы элементов.LargerBorderо(D)LargerBorder_\sigma(\mathcal{D})иSmallBorderо(D)SmallBorder_\sigma(\mathcal{D})выражать
    • Во-вторых, в наборе данныхSmallBorderо(D)SmallBorder_\sigma(\mathcal{D})должно бытьпустой набор(не может существовать меньших границ), для этого, чтобы найти все EP, просто укажитеLargerBorderо(D)LargerBorder_\sigma(\mathcal{D})Просто

алгоритм

Border-Diff

Процесс в основном заключается в использовании разницы между парой границ для получения новой границы.

Border-Diff方法

Еще немного пояснений"non-minimal itemsets”: Как видно из исходного текста, после окончания первого шага базовой версии Border-Diff,L\mathcal{L}= {{1}, {1, 4}, {1, 3}, {1, 3, 4}, {1, 2}, {1, 2, 4}, {1, 2, 3}, {2 , 3, 4}} (обратите внимание, что они написаны в порядке перечисления); то, что нужно удалить на втором шаге, этосуперсет(это,non-minimal itemsets), сохранить наименьшее подмножество (надмножество можно получить, расширив дерево перечисления подмножеств); таким образом, окончательный результатL\mathcal{L} = {{1}, {2, 3, 4}}

MBD-LLBorder

MBD-LLBorder方法

Ссылаться на

  1. Efficient Mining of Emerging Patterns: Discovering Trends and Differences