Первый взгляд на машинное обучение

искусственный интеллект
Первый взгляд на машинное обучение

Это 4-й день моего участия в ноябрьском испытании обновлений.Подробности о событии:Вызов последнего обновления 2021 г.

Что такое машинное обучение?

机器学习就是让机器能够具备类似人的学习能力,并通过统计学、概率论和算法知识对数据进行分析,在特定场景下做出符合预期的行为。

В машинном обучении данные являются наиболее важными, и необходимо использовать большой объем данных для обучения машины, чтобы машина могла делать выводы на основе данных.

Когда люди узнают вещь, они часто сначала связывают характеристики вещи с самой вещью, и то же самое верно для машин. Например, чтобы машина узнала слона, вы должны сначала сообщить машине характеристики слона, а именно: длинный хобот, большие уши и большое тело.особенностьВ машинном обучении он будет представлен числом, такое число называетсяСумма функции, объединяющее эти значения, такие как (100, 8, 70), называетсяВектор признаков.

Разница между анализом данных и интеллектуальным анализом данных

Мы можем анализировать данные или майнить, разница между ними заключается в следующем.

направление анализ данных сбор данных
метод Используйте статистические знания для получения результатов Использование статистики + машинного обучения для получения результатов
предпочтение бизнес Технологии
выполнить Численный расчет и визуализация с помощью Excel Используйте методы программирования для реализации числовых расчетов и визуализации с использованием методов машинного обучения.
результат визуализировать данные Используйте данные, чтобы делать прогнозы

Границы между анализом данных и интеллектуальным анализом данных становятся все более размытыми, и аналитики данных постепенно начинают использовать такие методы, как машинное обучение, для обработки больших данных и повышения ценности данных.

Процесс машинного обучения

Процесс машинного обучения: источник данных -> предварительная обработка данных -> проектирование признаков -> моделирование данных -> проверка данных.

источник данных

Когда пользователи используют программное обеспечение, они будут производить ряд действий, таких как нажатие, комментирование, пребывание и т. д. Внешний интерфейс отправляет эти поведенческие данные на сервер, а сервер сохраняет данные в базе данных или на файловом сервере. , HBase, Hive и т. д. Обычно используются HDFS и т. д. После этого данные могут быть получены из этих источников данных, а затем могут быть выполнены предварительная обработка данных, анализ, моделирование и проверка.

предварительная обработка данных

После получения источника данных следующим шагом будет выполнение предварительной обработки данных, то есть очистка необходимых данных. Для некоторых грязных данных необходимо обращаться с ними соответствующим образом. Общие типы грязных данных и методы обработки следующие.

грязные данные Подход
id обычно выбрасывается
пропущенное значение Бросьте или заполните, в зависимости от деловой ситуации
Выбросы В случае недопустимого возраста может быть присвоено особое значение в зависимости от деловой ситуации.

разработка функций

Так называемая разработка признаков также является этапом статистического анализа.После получения чистых данных вы можете использовать статистику для их анализа, затем визуализировать данные, а затем использовать математические методы для их моделирования.

Моделирование данных

Предполагая, что после статистического анализа имеется только два типа данных, один тип данныхxозначает, что класс данныхyозначает, что функция может быть найденаf(x), для любогоx, обаy = f(x). Одним из таких процессов является моделирование данных. на каждое будущееxзначение, вы можете использовать фиксированноеf(x)получитьy, что является просто прогнозированием данных.

проверка данных

Последним этапом является проверка данных, которая заключается в использовании тестовых данных для проверки точности модели.

Аналитическая модель

Анализ данных имеет набор стандартных моделей анализа, которые могут помочь нам лучше извлечь ценность данных.

LRFMCявляется широко используемой аналитической моделью, которая соответственно представляет собой индикатор анализа данных.

  • Л. Длина отношений. Генерируемый пользователем интервал времени до использования данных.
  • Р. Интервал потребления. Интервал времени между последним использованием сервиса пользователем и началом использования данных.
  • Ф. частота потребления. Количество раз, когда пользователь воспользовался услугой за определенный период времени.
  • М. время потребления. Общее время, в течение которого пользователь использовал сервис.
  • С. Среднее значение коэффициента дисконтирования. Средняя ставка дисконтирования для расходов пользователей.

После очистки данных можно извлечь данные по этим пяти показателям, то есть найти соответствующие поля, и получить эти пять показателей путем расчета.

LRFMCВажная роль модели заключается в том, чтобы помочь нам классифицировать пользователей, и мы можем использовать целевые стратегии для разных типов пользователей. Например, согласно модели, пользователи со стабильным в течение длительного времени и интенсивным потреблением могут быть приоритетными для услуг, в то время как пользователи, которые не очень много пользуются услугами и имеют низкие инвестиции, могут уделять меньше внимания.