«Это 13-й день моего участия в ноябрьском испытании обновлений. Подробную информацию об этом событии см.:Вызов последнего обновления 2021 г."
Общие шаги в машинном обучении
Сбор данных: веб-загрузка, поисковый робот, чтение базы данных, открытые данные...
Очистка данных: очистка и форматирование данных, исследовательский анализ данных (EDA)
Разработка функций: разработка функций, выбор функций
Моделирование данных: сравнивайте несколько моделей машинного обучения на основе показателей производительности, выполняйте настройку гиперпараметров на лучшей модели, оценивайте лучшую модель на тестовом наборе, интерпретируйте результаты модели, делайте выводы.
Очистка данных
Очистка данных относится к заключительному процессу поиска и исправления идентифицируемых ошибок в файлах данных, включая проверку согласованности данных, обработку неверных и отсутствующих значений и т. д. В отличие от проверки анкеты, очистка данных после ввода обычно выполняется компьютерами, а не людьми.
Исследовательский анализ данных (EDA):
Исследовательский анализ данных (EDA) — это открытый процесс, в котором мы строим графики и вычисляем статистику для изучения наших данных.
Цель состоит в том, чтобы найти аномалии, закономерности, тенденции или взаимосвязи. Это может быть интересно (например, найти корреляцию между двумя переменными) или их можно использовать для моделирования решений, например, какие функции использовать.
Короче говоря, цель EDA — определить, что наши данные могут нам сказать!
Найдите отношения:
Чтобы увидеть влияние категориальных переменных — категориальных переменных на оценку, мы можем нарисовать график плотности по значениям категориальных переменных. График плотности также показывает распределение одной переменной, которую можно рассматривать как сглаженную гистограмму. Если мы раскрасим кривую плотности категориальной переменной, это покажет нам, как распределение меняется в зависимости от категорий.
Теперь, когда у нас есть правильные типы данных столбца, мы можем начать наш анализ, просмотрев процент пропущенных значений в каждом столбце. Когда мы проводим исследовательский анализ данных, пропущенные значения — это нормально, но их необходимо заполнить с помощью методов машинного обучения.
График пар — отличный способ одновременного изучения нескольких переменных, поскольку он показывает диаграмму рассеяния между парами переменных по диагонали и гистограмму одной переменной.
разработка функций
Разработка функций: процесс получения необработанных данных и извлечения или создания новых функций. Это может означать преобразование переменных, таких как натуральные логарифмы и квадратные корни, или однократное кодирование категориальных переменных, чтобы их можно было использовать в моделях. В общем, я думаю о разработке признаков как о создании дополнительных признаков из необработанных данных.
Выбор признаков: процесс выбора наиболее релевантных признаков в данных. При выборе функций мы удаляем функции, чтобы помочь модели лучше обобщить новые данные и создать более интерпретируемую модель. В общем, выбор функций заключается в вычитании функций, поэтому мы оставляем только те функции, которые наиболее важны.
Разработка функций играет важную роль в интеллектуальном анализе данных.В области данных принято, что данные и функции определяют верхний предел машинного обучения, а модели и алгоритмы могут только приближаться к этому верхнему пределу.
Важность разработки функций: чем лучше функция, тем больше гибкость; чем лучше функция, тем проще модель; чем лучше функция, тем выше производительность; даже если хорошая функция использует общую модель, вы можете получить хорошие результаты. ! Разработка функций играет ключевую роль в интеллектуальном анализе данных.В области данных существует консенсус в отношении того, что данные и функции определяют верхний предел машинного обучения, а модели и алгоритмы могут только приблизиться к этому верхнему пределу. Важность разработки признаков: чем лучше функции, тем больше гибкость; чем лучше функции, тем проще модель; чем лучше функции, тем выше производительность; хорошие функции могут дать хорошие результаты, даже если вы используете общую модель!
Выбор признаков имеет две основные функции: 1. Уменьшение количества признаков и размерности, делая модель более обобщаемой и уменьшая переобучение. 2. Улучшение понимания между признаками и собственными значениями.
Раздел данных: