Жизненный цикл проекта по науке о данных

Большие данные
Жизненный цикл проекта по науке о данных

Обзор

Цикл разработки проекта по науке о данных отличается от традиционного цикла разработки программного обеспечения. Хотя методы и практика разработки различаются от организации к организации, в большинстве организаций процессы схожи. Одним из хорошо известных процессов является Межотраслевой стандартный процесс интеллектуального анализа данных (CRISP-DM), сводная версия которого представлена ​​в этом блоге.

Жизненный цикл науки о данных

Жизненный цикл проекта по науке о данных делится на шесть этапов.

понимание бизнеса- Понимание бизнес-контекста и краткосрочных и долгосрочных целей

понимание данных-- Понять доступность данных качества и количества

подготовка данных-- Подготовьте правильные наборы данных, функции и инженерные данные для использования в модели.

моделирование- Выберите правильные методы моделирования, алгоритмы и фреймворки

оценивать--Оценка модели, бенчмаркинг и метрики

развертывать-- Развертывание окончательной модели

На приведенной ниже диаграмме показан жизненный цикл типичного проекта по науке о данных.

Рисунок: Жизненный цикл проекта Data Science

понимание бизнеса

На этом этапе понимаются потребности и цели бизнеса. Этот этап посвящен оценке, планированию, определению моделей управления и критериев успеха.

понимание данных

На этом этапе данные собираются и проверяются. Понимание данных может включать исследовательский анализ данных, визуализацию данных и оценку качества и количества данных.

подготовка данных

Этап подготовки данных является одним из наиболее важных этапов в жизненном цикле проекта по науке о данных. Некоторые из действий, выполняемых на этом этапе, включают определение правильного набора данных, очистку данных, оценку, проектирование данных и признаков.

моделирование

Это один из самых захватывающих этапов жизненного цикла. Наборы данных обычно делятся на тестовые, обучающие и проверочные. Определяется используемый алгоритм. Модели постоянно строятся и оцениваются. Результаты различных моделей интерпретируются в соответствии с критериями успеха и тестирования. Это итеративная фаза, которая продолжается до тех пор, пока результаты не достигнут желаемого эталона.

оценивать

Этап оценки фокусируется на оценке модели относительно бизнес-целей. Эта оценка отличается от оценки на предыдущем этапе, которая представляет собой техническую оценку модели. Общая оценка включает проверку и измерение критериев успеха и определенных показателей.

развертывать

На этом этапе модель развертывается и вводится в эксплуатацию. Модели машинного обучения часто интегрированы и связаны с продуктами и приложениями. Это могут быть веб-приложения, десктопные или мобильные приложения. Модели машинного обучения также развертываются на устройствах и сегодня все чаще применяются и широко используются в периферийных вычислениях.

Резюме

Содержание этой статьи относится к процессу CRISP-DM. Существуют и другие известные процессы для проектов по науке о данных и интеллектуальному анализу данных, такие как SEMMA, обнаружение знаний в базах данных (KDD) и т. д. Благодаря широкому внедрению гибких и масштабируемых гибких методологий большинство процессов жизненного цикла науки о данных адаптированы для удовлетворения конкретных потребностей бизнеса с упором на итеративную и инкрементальную разработку и прозрачность.

использованная литература

www.datascience-pm.com/