Практические автоматизированные инструменты EDA для обработки данных

анализ данных

«Это 9-й день моего участия в ноябрьском испытании обновлений, ознакомьтесь с подробностями события:Вызов последнего обновления 2021 г."

EDA(Exploratory Data Analysis)Обычно это первый шаг в соревновании по науке о данных.Когда мы получаем обучающий набор, нам часто нужно сначала изучить его, чтобы подтвердить распределение данных, отсутствующие значения, строки, временные метки и т. д. Обычно EDA занимает больше всего время, но это также модель последующей оптимизации.Предпосылка эффекта, если заимствовать слова больших парней:

Данные и функции определяют верхний предел машинного обучения, а модели и алгоритмы лишь приближаются к этому верхнему пределу.

Раньше для статистического анализа EDA выводился построчно, теперь мы представим несколько инструментов исследования для быстрого EDA.

  • Pandas Profiling
  • Sweetviz
  • Dataprep

демонстрационный набор данных

Набор данных Kaggle Classic — прогноз выживания Титаника

Адрес набора данных: Woohoo.Карта Reformed.com/ из /Titanic/…

Я не буду слишком много рассказывать о kaggle, сначала импортируйте данные

import pandas as pd
df = pd.read_csv('/content/train.csv')

1. Pandas Profiling

адрес:GitHub.com/pandas-Prof…

Pandas ProfilingЭто должен быть один из самых известных инструментов Auto EDA, это расширение pandas и может завершить EDA всего двумя или тремя строками кода. Автор впервые узнал об этом инструменте из заметки по анализу данных крупного парня на kaggle. Сначала установите инструменты:

pip install pandas-profiling

pandas-profilingРезультаты EDA будут отображены в интерактивном HTML-отчете, и будет проанализирована каждая функция, включая распределение данных, отсутствующие значения, корреляции и т. д. Метод использования очень прост, код выглядит следующим образом:

import pandas as pd
from pandas_profiling import ProfileReport
report = ProfileReport(df, title="Titanic Dataset")
report.to_file("Titanic_Dataset_Pandas_Profiling.html")

Отображение эффекта EDA

pandas-profilingПреимущество заключается в том, что он является всеобъемлющим и в основном содержит всю информацию EDA данных. Но относительный интерфейс однообразен и недостаточно гибок.

2. Sweetviz

адрес:GitHub.com/FB дизайн про…

SweetvizЭто также очень популярный инструмент EDA в последнее время, и вышеPandas ProfilingТо же самое можно использовать для быстрого изучения данных, но корреляционный анализ между переменными меньше.

Установить:

pip install sweetviz

Код:

import sweetviz as sv
report = sv.analyze(df)
report.show_html(filepath='Titanic_Dataset_Sweetviz.html')

SweetvizОн будет генерировать красочные отчеты, а поскольку расчет оптимизирован, скорость генерации будет выше, чем у Pandas Profiling.

SweetvizЕще одной особенностью является возможность сравнения двух наборов данных.

Например, комбинированный анализ данных обучения и данных тестирования:

3.Dataprep

адрес:GitHub.com/comfort-ни/данные…

DataprepЭто также инструмент для быстрого создания отчетов EDA с богатыми и мощными функциями, который может стать популярным инструментом.

Установить:

pip install dataprep

Используйте код:

from dataprep import eda as dpeda
report = dpeda.create_report(df, title='Titanic Dataset')
report.save('Titanic_Dataset_Dataprep')

Dataprepпрезентация иpandas-profilingОчень похоже, но тоньше и мельче. Содержимое текстовой функции будет отображаться с изображением облака слов.

Dataprep также имеет много интересных функций, и ожидается, что вы изучите больше функций самостоятельно. Автоматизированный анализ данных, исследование и моделирование постепенно становятся направлением, и в будущем появятся более практичные инструменты. Кроме того, существуют другие инструменты для автоматизированного EDA, такие какAutoViz,ExploriPy,speedMLи т. д., но функции более полуавтоматические, и использование зависит от вашего мнения.