Предварительно: есть ли разница между нечетким майнингом полезных ископаемых и неопределенными наборами данных? Можно ли использовать их вместе? Хотя алгоритм, который будет записан сегодня, устарел (2015 г., двухфазный алгоритм), это действительно относительно классический алгоритм нечеткой полезности, который необходимо тщательно изучить.

Fuzzy utility mining with upper-bound measure

Образец

Fuzzy Method

Membership value

Transaction Dataset

Transaction database.png

Utility of Each Item

Utility of each item.png

определение

наборы предметов (itemset):Зависит от $I=\lbrace i_1, i_2, \ldots, i_n \rbrace$ Подмножество нескольких элементов в $\lbrace i_1, \ldots, i_l \rbrace$ ,и $1 < l \le n$ , $i_j \not= i_k$ ( $j \not= k$ ); $l$ представляет длину набора элементов, который мы называем $l$ - $itemset$
Количественные наборы элементов транзакции (quantitative transaction database): Наборы элементов количественных транзакций (QDB) состоит из множества элементов транзакции $\lbrace Trans_1, Trans_2, \ldots, Trans_y, Trans_z \rbrace$ , где нижний индекс относится к номеру каждой позиции транзакции (TID), $z$ Значит этоQDBсколько транзакций всего
Нечеткое множество (fuzzy set): каждая транзакционная позиция состоит из множестваitemsetсостав, в условиях сделки $Trans_y$ средний срок $i_z$ (Нижний индекс представляет номер значения нечеткого квантования) $f_{yz}$ = $\big($ $\frac{f_{yz1}}{R_{z1}}$ + $\frac{f_{yz2}}{R_{z2}}$ + $\dots$ + $\frac{f_{yzl}}{R_{zl}}$ + $\dots$ + $\frac{f_{yzh}}{R_{zh}}$ $\big)$ ,в $R_{zl}$ относится к элементу $i_z$ Каким нечетким интервалам принадлежат (в данной работе это $Low$ , $Middle$ и $High$ , $f_{yzl}$ то же), $i_z$ существует $Trans_y$ количество в $v_{yz}$ Выражать. например, предмет $D$ существует $Trans_6$ Квантованное значение нечеткого множества в $f_{6,D}$ = $(0.6/D.Low, 0.4/D.Middle, 0/D.High)$

Ps. Три числа 0,6, 0,4 и 0 получены из первого примера (Fuzzy Method), потому что прямая линия, перпендикулярная оси количества, будет пересекать не более двух нечетких интервалов, поэтому в этой статье одновременно имеется не более двух нечетких значений количественной оценки элемента, и метод расчета можно рассматривать как решение подобных треугольников
Значение прибыли (external utility): каждый элемент имеет уникальныйпростоЗначение полезности, обычно называемое значением прибыли для простоты понимания, использование $s(i_z)$ Представление (что, если это отрицательное число?)
Нечеткое значение полезности элемента в элементе транзакции (fuzzy utility of item in a transaction): Идея согласуется с методом расчета значения полезности общего предмета.Формула расчета в нечетком майнинге полезности выглядит следующим образом: $fu_{yzl}$ = $f_{yzl} \times v_{yz} \times s(i_z)$ ; Также в $Trans_6$ пункт в $D$ Например, $f_{6,D}$ = $0.6 \times 3 \times 3$ , в то время как нечеткая утилита решения для всех элементов во всем наборе данных вводится позже
Нечеткое значение полезности набора элементов в элементе транзакции (fuzzy utility of itemset in a transaction): также в позиции транзакции, $fu_{yX}$ = $f_{yX}\times\sum_{R_{yzl} \subseteq X}(v_{yz} \times s(i_z))$ , необходимо указать $f_{yX}$ берется из набора предметов $X$ Все элементы элемента $i_z$ , в качестве значения вычисляется наименьшее значение нечеткого квантования, например, в $Trans_6$ средний, нечеткий срок $C.Low$ и $D.Low$ Значения нечеткого квантования равны $1$ и $0.6$ ,Так $f_{6,\lbrace C.Low, D.Low \rbrace}$ = $0.6$
Нечеткое значение полезности термина (fuzzy utility of item): Во всем наборе данных нечеткое значение полезности элемента рассчитывается как $afu_z$ = $\sum_{i_{zl} \in y}fu_{yzl}$
Нечеткое значение полезности набора элементов (fuzzy utility of itemset): Во всем наборе данных значение нечеткой полезности набора элементов рассчитывается как $afu_X$ = $\sum_{y}fu_{yX}$ ; также с наборами элементов $X$ = $\lbrace C.Low, D.Low \rbrace$ Например, $afu_X$ = $fu_{2,X}$ + $fu_{4,X}$ + $fu_{6,X}$ + $fu_{8,X}$ = $33.2$
Наборы предметов с высокой нечеткостью полезности (high fuzzy utility itemset): когда нечеткое значение полезности набора элементов не меньше заданного порога $\lambda$ , тогда мы называем набор элементов высоко-нечетким набором полезных элементов (HFU)
Максимальное нечеткое значение полезности элемента в элементе транзакции (maximal fuzzy utility of item in a transaction): Поскольку в наборе элементов транзакции много нечетких интервалов, поэтому для определенного элемента $i_z$ Должны существовать максимальное значение нечеткого квантования и минимальное значение нечеткого квантования.downward-closure propertyЭффект
Максимальное нечеткое значение полезности элемента транзакции (maximal fuzzy utility of a transaction): Из-за максимального значения нечеткой полезности элемента элемент транзакции, состоящий из нескольких элементов, естественно, также имеет максимальное значение нечеткой полезности. $mtfu_y$ = $\sum_{i_z \subseteq Trans_y}mfu_{yz}$
Верхняя граница нечеткой полезности (fuzzy utility upper-bound): Найдите верхнюю границу (оценочное значение, аналогичное максимальному нечеткому значению полезности элемента транзакции). $TWU$ ) может найти набор элементов $X$ оценочная стоимость $fubb_X$ = $\sum_{X \subseteq Trans_y \subseteq QDB}mtfu_y$
Кандидаты на высоко-нечеткие служебные наборы (high fuzzy utility upper-bound itemset): когда верхнее граничное значение нечеткой полезности набора не меньше порога $\lambda$ , набор может бытьHFU, необходимы дальнейшие расчеты для проверки

алгоритм

TPFU Algorithm

TPFU algorithm.png

Суммировать

TPFUАлгоритм не использует очень мощные стратегии обрезки или другие методы расчета, потому что это классическийtwo-phaseАлгоритм класса, поэтому чтение псевдокода не представляет особой сложности. Лично у меня есть следующие вопросы: 1) Во время процесса Фазы I многократно обходит QDB, то же самое в реальном коде? 2) Делает ли использование только одной верхней границы граничное значение менее компактным? 3) Есть ли более эффективный способ расчета различных максимумов? 4) В реальном коде эти данные хранятся в массиве или в хэш-карте? Также в статье упоминается, что FUM не так прост, как HUEM, который изучался ранее, а скорее получить полезные правила ассоциации, используя «маленький, малый, подходящий, большой, большой» (Membership Function) Такие прилагательные заменяют точные числа, что больше соответствует привычкам описания в нашей повседневной жизни, но в результате шаги решения становятся более громоздкими, а конкретные детали необходимо дополнительно изучать в коде