Предварительно: есть ли разница между нечетким майнингом полезных ископаемых и неопределенными наборами данных? Можно ли использовать их вместе? Хотя алгоритм, который будет записан сегодня, устарел (2015 г., двухфазный алгоритм), это действительно относительно классический алгоритм нечеткой полезности, который необходимо тщательно изучить.
Fuzzy utility mining with upper-bound measure
Образец
Fuzzy Method
Transaction Dataset
Utility of Each Item
определение
-
наборы предметов (itemset):Зависит отПодмножество нескольких элементов в,и,();представляет длину набора элементов, который мы называем-
-
Количественные наборы элементов транзакции (quantitative transaction database): Наборы элементов количественных транзакций (QDB) состоит из множества элементов транзакции, где нижний индекс относится к номеру каждой позиции транзакции (TID),Значит этоQDBсколько транзакций всего
-
Нечеткое множество (fuzzy set): каждая транзакционная позиция состоит из множестваitemsetсостав, в условиях сделкисредний срок(Нижний индекс представляет номер значения нечеткого квантования) = +++++ ,вотносится к элементуКаким нечетким интервалам принадлежат (в данной работе это,и,то же),существуетколичество вВыражать. например, предметсуществуетКвантованное значение нечеткого множества в=
Ps. Три числа 0,6, 0,4 и 0 получены из первого примера (Fuzzy Method), потому что прямая линия, перпендикулярная оси количества, будет пересекать не более двух нечетких интервалов, поэтому в этой статье одновременно имеется не более двух нечетких значений количественной оценки элемента, и метод расчета можно рассматривать как решение подобных треугольников
-
Значение прибыли (external utility): каждый элемент имеет уникальныйпростоЗначение полезности, обычно называемое значением прибыли для простоты понимания, использованиеПредставление (что, если это отрицательное число?)
-
Нечеткое значение полезности элемента в элементе транзакции (fuzzy utility of item in a transaction): Идея согласуется с методом расчета значения полезности общего предмета.Формула расчета в нечетком майнинге полезности выглядит следующим образом:=; Также впункт вНапример,=, в то время как нечеткая утилита решения для всех элементов во всем наборе данных вводится позже
-
Нечеткое значение полезности набора элементов в элементе транзакции (fuzzy utility of itemset in a transaction): также в позиции транзакции,=, необходимо указатьберется из набора предметовВсе элементы элемента, в качестве значения вычисляется наименьшее значение нечеткого квантования, например, всредний, нечеткий срокиЗначения нечеткого квантования равныи,Так=
-
Нечеткое значение полезности термина (fuzzy utility of item): Во всем наборе данных нечеткое значение полезности элемента рассчитывается как=
-
Нечеткое значение полезности набора элементов (fuzzy utility of itemset): Во всем наборе данных значение нечеткой полезности набора элементов рассчитывается как=; также с наборами элементов=Например,=+++=
-
Наборы предметов с высокой нечеткостью полезности (high fuzzy utility itemset): когда нечеткое значение полезности набора элементов не меньше заданного порога, тогда мы называем набор элементов высоко-нечетким набором полезных элементов (HFU)
-
Максимальное нечеткое значение полезности элемента в элементе транзакции (maximal fuzzy utility of item in a transaction): Поскольку в наборе элементов транзакции много нечетких интервалов, поэтому для определенного элементаДолжны существовать максимальное значение нечеткого квантования и минимальное значение нечеткого квантования.downward-closure propertyЭффект
-
Максимальное нечеткое значение полезности элемента транзакции (maximal fuzzy utility of a transaction): Из-за максимального значения нечеткой полезности элемента элемент транзакции, состоящий из нескольких элементов, естественно, также имеет максимальное значение нечеткой полезности.=
-
Верхняя граница нечеткой полезности (fuzzy utility upper-bound): Найдите верхнюю границу (оценочное значение, аналогичное максимальному нечеткому значению полезности элемента транзакции).) может найти набор элементовоценочная стоимость=
-
Кандидаты на высоко-нечеткие служебные наборы (high fuzzy utility upper-bound itemset): когда верхнее граничное значение нечеткой полезности набора не меньше порога, набор может бытьHFU, необходимы дальнейшие расчеты для проверки
алгоритм
TPFU Algorithm
Суммировать
TPFUАлгоритм не использует очень мощные стратегии обрезки или другие методы расчета, потому что это классическийtwo-phaseАлгоритм класса, поэтому чтение псевдокода не представляет особой сложности. Лично у меня есть следующие вопросы: 1) Во время процесса Фазы I многократно обходит QDB, то же самое в реальном коде? 2) Делает ли использование только одной верхней границы граничное значение менее компактным? 3) Есть ли более эффективный способ расчета различных максимумов? 4) В реальном коде эти данные хранятся в массиве или в хэш-карте? Также в статье упоминается, что FUM не так прост, как HUEM, который изучался ранее, а скорее получить полезные правила ассоциации, используя «маленький, малый, подходящий, большой, большой» (Membership Function) Такие прилагательные заменяют точные числа, что больше соответствует привычкам описания в нашей повседневной жизни, но в результате шаги решения становятся более громоздкими, а конкретные детали необходимо дополнительно изучать в коде