«Это 9-й день моего участия в ноябрьском испытании обновлений, ознакомьтесь с подробностями события:Вызов последнего обновления 2021 г."
EDA(Exploratory Data Analysis)
Обычно это первый шаг в соревновании по науке о данных.Когда мы получаем обучающий набор, нам часто нужно сначала изучить его, чтобы подтвердить распределение данных, отсутствующие значения, строки, временные метки и т. д. Обычно EDA занимает больше всего время, но это также модель последующей оптимизации.Предпосылка эффекта, если заимствовать слова больших парней:
Данные и функции определяют верхний предел машинного обучения, а модели и алгоритмы лишь приближаются к этому верхнему пределу.
Раньше для статистического анализа EDA выводился построчно, теперь мы представим несколько инструментов исследования для быстрого EDA.
- Pandas Profiling
- Sweetviz
- Dataprep
демонстрационный набор данных
Набор данных Kaggle Classic — прогноз выживания Титаника
Адрес набора данных: Woohoo.Карта Reformed.com/ из /Titanic/…
Я не буду слишком много рассказывать о kaggle, сначала импортируйте данные
import pandas as pd
df = pd.read_csv('/content/train.csv')
1. Pandas Profiling
адрес:GitHub.com/pandas-Prof…
Pandas Profiling
Это должен быть один из самых известных инструментов Auto EDA, это расширение pandas и может завершить EDA всего двумя или тремя строками кода. Автор впервые узнал об этом инструменте из заметки по анализу данных крупного парня на kaggle. Сначала установите инструменты:
pip install pandas-profiling
pandas-profiling
Результаты EDA будут отображены в интерактивном HTML-отчете, и будет проанализирована каждая функция, включая распределение данных, отсутствующие значения, корреляции и т. д. Метод использования очень прост, код выглядит следующим образом:
import pandas as pd
from pandas_profiling import ProfileReport
report = ProfileReport(df, title="Titanic Dataset")
report.to_file("Titanic_Dataset_Pandas_Profiling.html")
Отображение эффекта EDA
pandas-profiling
Преимущество заключается в том, что он является всеобъемлющим и в основном содержит всю информацию EDA данных. Но относительный интерфейс однообразен и недостаточно гибок.
2. Sweetviz
адрес:GitHub.com/FB дизайн про…
Sweetviz
Это также очень популярный инструмент EDA в последнее время, и вышеPandas Profiling
То же самое можно использовать для быстрого изучения данных, но корреляционный анализ между переменными меньше.
Установить:
pip install sweetviz
Код:
import sweetviz as sv
report = sv.analyze(df)
report.show_html(filepath='Titanic_Dataset_Sweetviz.html')
Sweetviz
Он будет генерировать красочные отчеты, а поскольку расчет оптимизирован, скорость генерации будет выше, чем у Pandas Profiling.
Sweetviz
Еще одной особенностью является возможность сравнения двух наборов данных.
Например, комбинированный анализ данных обучения и данных тестирования:
3.Dataprep
адрес:GitHub.com/comfort-ни/данные…
Dataprep
Это также инструмент для быстрого создания отчетов EDA с богатыми и мощными функциями, который может стать популярным инструментом.
Установить:
pip install dataprep
Используйте код:
from dataprep import eda as dpeda
report = dpeda.create_report(df, title='Titanic Dataset')
report.save('Titanic_Dataset_Dataprep')
Dataprep
презентация иpandas-profiling
Очень похоже, но тоньше и мельче. Содержимое текстовой функции будет отображаться с изображением облака слов.
Dataprep также имеет много интересных функций, и ожидается, что вы изучите больше функций самостоятельно. Автоматизированный анализ данных, исследование и моделирование постепенно становятся направлением, и в будущем появятся более практичные инструменты. Кроме того, существуют другие инструменты для автоматизированного EDA, такие какAutoViz,ExploriPy,speedMLи т. д., но функции более полуавтоматические, и использование зависит от вашего мнения.