Написано впереди: этот алгоритм представляет собой топ-k алгоритм майнинга, разработанный на основе структуры списка полезностей HUI-Miner, и многие стратегии с самовозрастанием порога заслуживают нашего изучения.Цель написания этой заметки — представить эти стратегии и личные мысли
An efficient algorithm for mining the top-k high utility itemsets, using novel threshold raising and pruning strategies
Образец
External utility of items
Example database
определение
Большая часть содержания может быть отнесена кHUI-MinerПримечания к этому алгоритму, здесь только некоторые дополнительные дополнения
Estimated Utility Co-occurrence Structure (EUCS)
в диссертацииEUCSопределяется как кортеж (,,),вивсе элементы (по умолчанию неповторяющиеся)Это показывает, что алгоритм не учитывает идею отрицательной полезности. Для удобства понимания автор рисует несколько матричных диаграмм для иллюстрации (Ps. На самом деле для хранения этой информации используется hashmap, а не матричная структура).Конкретный процесс построения выглядит следующим образом:
Utility list construction
- Значение полезности набора элементов: В построенном списке полезности формула для определения значения полезности набора элементов выглядит следующим образом:,вОтносится к списку полезностей набора элементов X (как построить, см.HUI-Miner)
Transitive extension upper-bound utility
Учитывая любой набор предметови его расширяемость, новая формула расчета граничного значения = + +
Coverage
когда два предметаиОтношения существования, мы называем терминВключают(cover)пункт, можно сделать вывод, чтопокрытие,вУказывает на включениеНомера всех транзакционных позиций (TID),который
Дальнейшее расширение, есть и между наборами предметовcoverageотношения, когда наборы элементов,При установлениидаcoverage itemset
Это на самом деле концепция закрытия? Подставьте небольшое количество элементов, чтобы заменить расширенный набор элементов теми же свойствами, что и он, а затем продолжите вводить основуcoverageДругие полезные свойства, полученные на основе этой концепции, процесс доказательства подробно представлен в исходном тексте, вы можете самостоятельно вывести его вручную.
- свойство 1: элемент командыиимеютотношения, есть, где набор элементоврасширяется комбинацией двух терминов
- природа 2: элемент командыиимеютотношения, есть
- свойство 3: пусть набор предметов,но
- природа 4:в соответствии ссвойство 3, мы можем получить новый способ расчета значения полезности: установить терм,и наборы предметовимеют,и,Доступный=, и мы знаем, что(Ссылаться насвойство 1можно предположить)
- свойство 5:в соответствии сприрода 4, легко подуматьВсегда установлено (можно ли это объяснить замкнутостью?), нормативное выражение в статье: установить срок, набориимеют,иЕсли отношения постоянны, тодолжны быть установлены
Стратегия
The estimated utility co-occurrence pruning strategy (EUCP)
в содержании по определениюEUCSПосле построения удалите теДвоичный член после сортировки можно получитьEUCSTСтруктурная схема, как показано на следующем рисунке:
Хорошо видно, что количество бинарных наборов элементов намного меньше исходного, и тогда на основе этих бинарных наборов элементов будут добыты наборы элементов более высокого порядка с высокой полезностью.Ядро этой стратегии сокращения по-прежнему использует традиционнуюОднако большинство предыдущих алгоритмов обеспечивают отсечение наборов элементов первого порядка, и этот алгоритм может успешно использовать это свойство для наборов элементов второго порядка, что имеет большую справочную ценность для других алгоритмов.
The efficient utility-list pruning strategy
В соответствии с двумя определениями расчета значения полезности набора элементов и расчета остаточной полезности набора элементов можно получить новую стратегию сокращения, то естьвремя, набор предметовИ ни один его набор расширений не может быть набором элементов с высокой полезностью. Причина в том, что в уже отсортированном элементе транзакции (транзакции) он ранжируется в наборе элементовВсе последующие элементы станутЕсли совокупное значение полезности всех расширенных элементов меньше порогового значения, то значение полезности отдельной комбинации будет меньше порогового значения, поэтому его можно напрямую удалить (процесс подтверждения находится в процессе).HUI-Minerподробно обсуждается)
Ранний отказ от дополнительной стратегии (EA)
- Свойство LA: дано два набора предметови,когдакогда есть
EAОсновная идея стратегии состоит в том, чтобы прекратить построение списка полезности набора элементов при встрече с определенным набором элементов для свойства LA, чтобы сэкономить место и время, и доказать, что процесс деривации подробно описан. в газете
Transitive extension pruning strategy (TEP)
в соответствии сTransitive extension upper-bound utilityСодержимое определения имеет следующие два свойства:
Процесс доказательства подробно описан в статье, и здесь упоминается только заключение. Согласно этой природе, когда, развернуть набори его последующие расширения представляют собой наборы элементов с низкой полезностью, вы можете не создавать для них список полезности (в сочетании сThe efficient utility-list pruning strategy)
Real item utilities threshold raising strategy (RIU)
Эта стратегия может быть легко реализована на многих алгоритмах, и существует множество вариантов. Основная идея состоит в том, чтобы собрать полезность каждого элемента или полезность набора элементов транзакции в процессе сканирования набора данных.Обычно мы можем использовать hashmap для хранения этих значений (потому что последующий процесс майнинга также может быть использован)
The co-occurrence threshold raising strategy (CUD)
На основе EUCST, используя информацию 2-элементных наборов для повышения порога, можно рассмотреть вопрос о построении CUDM для хранения этой информации в других алгоритмах (есть ли способ избежать результатов вычислений, полученных при двукратном сканировании набора данных )
The coverage threshold raising strategy (COV)
Основная цель состоит в том, чтобы построить список COV для улучшения порога.Процесс показан в следующем псевдокоде.Лично я считаю этот метод более применимым, поскольку задействованы только одномерные элементы.
алгоритм
construct utility list
существуетHUI-MinerВ нем есть подробные введения. Ключом к этому методу является то, что у каждого кандидата есть "общий префикс» можно сплайсировать, но этот метод сплайсинга на самом деле очень неэффективен и создаст много бесполезных кандидатов, поэтому перед операцией сплайсинга заставьте кандидатов вырезать эти неэффективные элементы как можно больше
iConstruct algorithm
Приведенный выше алгоритм построения служебных списков на самом деле очень неэффективен, ему нужно каждый раз проходить (хотя это и дихотомия) два списка, находить наборы элементов с одинаковым префиксом, а затем соединять их вместе.Этот процесс занимает много времени и занимает память. kHMC разработала новый метод строительства, используя стратегию EA, чтобы избежать создания этих наборов предметов с низкой полезностью.
kHMC algorithm
Псевдокод всего алгоритма выглядит следующим образом:
Суммировать
kHMCВ алгоритме используется множество стратегий повышения порога, и он вращается только вокруг структуры списка полезностей.В первый раз, когда я столкнулся с этой статьей, я просто просмотрел ее грубо, и у меня не было подробного понимания методов. и используемые характеристики. Автор также провел множество сравнительных экспериментов, чтобы проверить превосходство алгоритма kHMC с различных аспектов, а также упомянул в конце, что концепция покрытия действительно может использоваться в утилитарном майнинге в других областях. Лично я считаю, что этот алгоритм все еще имеет относительно большое справочное значение и достоин изучения. Единственный минус - нет возможностиspmfНайдите соответствующий код на...