предисловие
В последнее время я занимаюсь исследованиями и работами, связанными с машинным обучением и интеллектуальным анализом данных, и я написал эту серию статей с целью обобщить и упорядочить знания. Чтобы применить это на практике, говоря об алгоритмах, мы будем говорить не только о принципах, но и говорить о конкретной реализации алгоритма.Может быть, все алгоритмы основаны на Python.Если вы не знакомы с Python, вы можете обратитесь к другой серии, которую я писал об основах интеллектуального анализа данных на Python, или обратите внимание на официальный аккаунт QStack, в котором собраны все статьи и обучающие материалы.
Что такое интеллектуальный анализ данных
Я думаю, что KDD — это хорошее обобщение и интерпретация интеллектуального анализа данных, KDD — это обнаружение знаний в базе данных.
предисловие
В последнее время я занимаюсь исследованиями и работами, связанными с машинным обучением и интеллектуальным анализом данных, и я написал эту серию статей с целью обобщить и упорядочить знания. Чтобы применить это на практике, говоря об алгоритмах, мы будем говорить не только о принципах, но и говорить о конкретной реализации алгоритма.Может быть, все алгоритмы основаны на Python.Если вы не знакомы с Python, вы можете обратитесь к другой серии, которую я писал об основах интеллектуального анализа данных на Python, или обратите внимание на официальный аккаунт QStack, в котором собраны все статьи и обучающие материалы.
Что такое интеллектуальный анализ данных
Я думаю, что KDD - это хорошее обобщение и интерпретация интеллектуального анализа данных. KDD - это обнаружение знаний в базе данных, то есть обнаружение знаний из данных. Некоторые люди часто говорят, что мы тонем в океане данных, но не хватает информации, то есть отсутствие информация знания. Цель интеллектуального анализа данных — использовать технологию интеллектуального анализа данных для поиска интересных данных в океане данных."знание"и"модель".
Технологии, связанные с интеллектуальным анализом данных
❝Выше мы упоминали, что интеллектуальный анализ данных предназначен для поиска интересных знаний и закономерностей в массивных данных, так как же их найти? Это включает в себя некоторые концепции и технологии интеллектуального анализа данных.Давайте рассмотрим некоторые конкретные технологии интеллектуального анализа данных и их приложения.
❞
Частые паттерны и анализ ассоциаций
Частые паттерны — это буквально паттерны, которые встречаются часто, а корреляции — это связи между вещами. Это понятие может показаться абстрактным, но оно часто встречается в нашей жизни, самый известный из которых — случай с пивом и подгузниками. Первое впечатление о пиве и подгузниках — это то, что они не имеют значения, и никто не будет связывать их вместе, но, как я уже сказал выше, интеллектуальный анализ данных — это поиск интересных закономерностей, в этом тоже его прелесть. Благодаря анализу и анализу большого количества данных исследователи обнаружили, что клиенты, которые покупают подгузники, всегда покупают пиво, поэтому пиво и подгузники продаются в одном месте, а продажи пива и подгузников значительно улучшились.
В этом случае пиво и подгузники часто появляются в покупательских корзинах людей, что является частым паттерном. В частом паттерне нам нужно обратить внимание на два индикатора: один — поддержка, а другой — уверенность. Среди них опорой является частное числа повторений шаблона и общее частное. В данном случае это количество пользователей, одновременно покупающих пиво и подгузники, деленное на общее количество пользователей. Поддержка слишком мала, значит, этот паттерн может быть частным случаем Стоимость майнинга не высока. Уровень достоверности в этом случае представляет собой количество клиентов, купивших пиво и подгузники, деленное на количество людей, купивших подгузники, что показывает корреляцию между ними. Чем выше уровень достоверности, тем сильнее корреляция между ними. Эта модель заслуживает доверия, чем выше степень.
Это основное применение интеллектуального анализа данных в бизнесе.За обнаружением закономерности могут стоять миллионы прибылей, поэтому компании уделяют все больше внимания интеллектуальному анализу данных. Уже существует множество алгоритмов для анализа частых шаблонов, и мы представим конкретные идеи и реализации в следующей статье.
Классификация
Классификация заключается в использовании набора обучающих данных для поиска модели, которая различает и описывает данные, а затем в использовании этой модели для прогнозирования метки класса неизвестных данных. Концептуальное понимание является относительно абстрактным. Мы кратко проиллюстрируем этот процесс с помощью дерева решений, обычно используемого в классификации. Например, нам нужно сгруппировать клиентов, потому что интересы клиентов одного и того же типа могут быть очень похожими. Пользователь покупает продукт А, и А принадлежит Существует высокая вероятность того, что пользователи той же категории также заинтересованы в продукте А, поэтому мы можем рекомендовать продукт А другим людям в категории, что намного эффективнее, чем бесцельные продажи. Для простоты примера мы рассматриваем только два атрибута, возраст и доход.Процесс классификации выглядит следующим образом. С помощью этих двух атрибутов мы можем разделить пользователей на A, B, C. Когда приходит новый пользователь, мы знаем, что его возраст молод и его доход высок, мы можем отнести его к классу А, а затем выполнять следующие операции, такие как рекомендация продуктов или другие. Цель технологии классификации состоит в том, чтобы построить такую модель, а затем использовать эту модель для прогнозирования категории неизвестных данных.
кластеризация
В методах классификации, упомянутых выше, категории обучающих данных известны, и для классификации необходимо найти соответствующие условия, чтобы лучше различать эти категории и минимизировать вероятность ошибочной классификации. При кластеризации нет известной метки класса, или кластеризация заключается в том, чтобы узнать метку класса. Как показано, мы не знаем класс точек до того, как начнем, мы можем сгруппировать точки в три класса по K ближайшим соседям, как показано кружками. В реальной жизни этими точками являются пользователи, и для группировки пользователей можно использовать методы кластеризации.
Обнаружение выбросов
Вышеупомянутая технология кластеризации позволяет нам кластеризовать похожих пользователей, объекты группируются вместе, а люди группируются. Однако есть некоторые пользователи, которые являются «независимыми» и сильно отличаются от других пользователей, как показано красными точками на рисунке ниже. Мы называем эту красную точку выбросом. Существует также много исследований выбросов, таких как мошенничество с кредитными картами.Поведение потребления сильно отличается от поведения большинства пользователей.Это выброс.Поэтому в некотором контроле рисков исследование выбросов имеет широкий спектр применений.
Наконец
Лайки — самая большая поддержка.Чтобы узнать больше статей и учебных материалов, вы можете подписаться на общедоступный аккаунт WeChat QStack.
В этой статье используетсяmdniceнабор текста
,