Исследовательский анализ данных (EDA) в Python с использованием SQL и Seaborn (SNS).

искусственный интеллект
Исследовательский анализ данных (EDA) в Python с использованием SQL и Seaborn (SNS).

Исследовательский анализ данных (EDA) — это метод анализа набора данных для обобщения его основных характеристик, обычно с использованием статистической графики и других методов визуализации данных. Различные статистические модели могут использоваться или нет, но в основном EDA используется для того, чтобы увидеть, что данные могут сказать нам вне формального моделирования или задач проверки гипотез.

Угадайте, что... всегда...

Изображение с unsplash.com

Почему я вообще занимаюсь EDA?

Думаю, более уместным будет вопрос.

Когда я не должен использовать EDA?

EDA — один из ключевых шагов в науке о данных, который позволяет нам выполнятьНекоторые идеи и статистические измерения. Это имеет решающее значение для бесчисленного количества пользователей, включая бизнес-менеджеров, заинтересованных лиц, специалистов по данным и многих других.

Для специалистов по данным EDA помогает определить и уточнить наш выбор важных переменных характеристик, которые будут использоваться в моделях машинного обучения, которые еще не были обучены.

В этом рассказе в демонстрационных целях мы будем использовать некоторыеДанные FitBit.

Данные фитнес-трекеров — популярная область исследований для ученых, статистиков, медицинских работников, физиологов и психологов, и это лишь некоторые из академических областей исследований. Обнаружение взаимосвязей в сложных временных рядах данных, таких как данные фитнес-трекера FitBit, может быть способом установления моделей повседневной жизни и способом обнаружения отклонений от этих моделей.

Хороший EDA может помочь обнаружить эти...

анализировать

Тщательный анализ данных Fitbit. Ключевые выводы выделяются и обсуждаются. Анализ, представленный в этой статье, был проведен с использованием 940 точек данных, полученных от 33 разных пользователей.

Читая эту историю, я надеюсь передать вам рассуждения и логику, лежащие в основе написания кода.

Во-первых, чтобы понять образ жизни этих пользователей, мы наносим минуты и расстояния на основе уровня активности пользователя.

medium.com/Media/8 из 6 из 8…

как и ожидалось,Люди, которые очень активны, преодолевают расстояние за более короткое время (то есть они имеют большую скорость, представленную более крутой линией регрессии). Несколько неожиданный результат был,"Минуты легкой активности"больше, чем" умеренные_активные минуты' намного быстрее. Было бы интересно узнать, как работает эта классификация, чтобы действительно понять разницу между «легкой» активностью и «умеренной» активностью.

Давайте проведем простую линейную регрессию для _общего количества шагов_ и _калорий_...

medium.com/Media/840EF…

Опять же, как и ожидалось, количество калорий, сожженных в течение дня, увеличивалось вместе с количеством пройденных пользователем шагов. Интересен тот факт, что точка пересечения линии регрессии представляет собой количество калорий, сожженных за день без ходьбы. Это количество калорий, которое пользователь сжигает, ведя сидячий образ жизни. в соответствии сHealthlineсайте, это число соответствует основному уровню метаболизма.

Это значение можно рассчитать, если мы знаем пол, вес, рост и возраст пользователя. Например, они сообщают, что 35-летний мужчина, который весит 175 фунтов и имеет рост 5 футов 11 дюймов, имеет BMR 1816 калорий, а 35-летняя женщина, которая весит 135 фунтов и имеет рост 5 футов 5 дюймов. имеет BMR 1383 калории. Чтобы сравнить эти оценки с нашими данными, мы можем использовать линейную регрессию, чтобы получить значения пересечения. Прогнозируемый BMR составил ~1665,74 (между прогнозируемыми значениями для 35-летних женщин и мужчин).

Если мы отфильтруем только те точки данных, которые сделали нулевые шаги, и получим статистику распределения калорий, мы сможем дополнительно получить информацию о BMR пользователя.

medium.com/Media/№ 9 № 7…

Давайте посмотрим на распределение данных для _очень активных_ минут, _достаточно активных_ минут_ и _слабо активных_ минут...

medium.com/Media/45360…

Вот загвоздка: неясно, все ли пользователи использовали фитнес-трекеры в течение дня в период анализа. Если пользователь записывает полный день, то _VeryActiveMinutes_ +FairlyActiveMinutes +LightlyActiveMinutes +SedentaryMinutesСумма должна равняться 1440 минутам (общее количество минут в сутках).

medium.com/Media/3002 ах…

Из приведенного выше фрагмента кода мы выводим

There are 474 (out of 936) rows where users logged the whole day.
There are 462 rows where users logged parts of the day.

Распределение минут световой активности очень симметрично, без пиков в периоды минимальной активности. Пользователи, которые заходят в систему весь день, могут в конечном итоге зарегистрировать много минут активности _light., в то время как те, кто регистрируется только часть дня, могут регистрироваться только для действий, которые пользуются большим спросом.

5 о о на medium.com/Media/7…

Теперь давайте посмотрим на привычки сна...

medium.com/Media/7 из 25…

Имеет ли значение день недели? Теперь, когда мы смотрим на наши данные и их распределение, влияет ли какой день недели на поведение пользователей?

medium.com/Media/27ah3…

medium.com/Media/BCD99…

Как изменилось малоподвижное время в выходные?

medium.com/Media/583 не 9…

Как это распределение зависит от выходных?

medium.com/Media/2 — это не 7 плохих новостей…

Теперь мы выделили две группы пользователей на основе распределения сидячего времени.

medium.com/Media/ Удобно от 50…

Похоже, мы обнаружили здесь тенденцию с явным сдвигом, который, кажется, находится недалеко от границы между этими двумя группами. Давайте проверим...

medium.com/Media/fee2…

Здесь мы обнаруживаем явную тенденцию к тому, что пользователи, которые больше спят, как правило, меньше сидят. Это говорит о том, что пользователи, которые больше всего спали, были более активны в течение дня.

Анализ данных

Используя только повседневную деятельность наших 33 пользователей, мы пришли к интересным выводам.

Здесь я включаю некоторые высокоуровневые идеи из EDA выше.

  • Существенной разницы в активности пользователей в разные дни недели не было, среднее количество шагов в день составило около 7670 шагов.
  • в соответствии сCDCнекоторые исследования.«... более высокие ежедневные шаги связаны с более низким риском смерти от всех причин». болезньCDC также проинформировал нас.«… ходьба 8000 шагов в день связана с уменьшением риска смерти от всех причин (или смерти от всех причин) на 51% по сравнению с 4000 шагов в день (число считается низким для взрослых). день связан с 65% меньшим риском по сравнению с прохождением 4000 шагов».

Если целью было сжечь некоторое количество калорий, была обнаружена линейная зависимость между пройденными шагами и сожженными калориями. Соответственно, мы можем использовать пользовательские данные, чтобы подобрать модель, которая предсказывает, сколько шагов должен предпринять пользователь, чтобы достичь определенного потребления калорий.

  • Что касается привычек сна, время сидячего образа жизни значительно уменьшилось по мере увеличения времени сна.

Что дальше?

EDA обычно делается для получения информации о данных, которая помогает нам решать задачи машинного обучения. В следующей истории мы используем тот же набор данных и полученные идеи для обучения нескольких моделей машинного обучения для решения проблем регрессии.

medium.com/@Переход на AE — это ITO/О…

Если вам нравится моя история и вы хотите перейти к блокноту с кодом и полным набором данных, он у меня есть в личном кабинете.gitтот, что наrepoопубликовал его в .

Дайте этому репозиторию звезду :)

Если вам нужна помощь с вашими проектами по науке о данных и/или искусственному интеллекту, пожалуйста, не стесняйтесь обращаться к нам.Linkedinилиmidasanalytics.aiСвяжитесь со мной по.


Исследовательский анализ данных (EDA) в Python с SQL и Seaborn (SNS)) изначально опубликовано на MediumTowards Data Science, люди продолжают беседу, выделяя историю и отвечая на нее.