Обзор
Цикл разработки проекта по науке о данных отличается от традиционного цикла разработки программного обеспечения. Хотя методы и практика разработки различаются от организации к организации, в большинстве организаций процессы схожи. Одним из хорошо известных процессов является Межотраслевой стандартный процесс интеллектуального анализа данных (CRISP-DM), сводная версия которого представлена в этом блоге.
Жизненный цикл науки о данных
Жизненный цикл проекта по науке о данных делится на шесть этапов.
понимание бизнеса- Понимание бизнес-контекста и краткосрочных и долгосрочных целей
понимание данных-- Понять доступность данных качества и количества
подготовка данных-- Подготовьте правильные наборы данных, функции и инженерные данные для использования в модели.
моделирование- Выберите правильные методы моделирования, алгоритмы и фреймворки
оценивать--Оценка модели, бенчмаркинг и метрики
развертывать-- Развертывание окончательной модели
На приведенной ниже диаграмме показан жизненный цикл типичного проекта по науке о данных.
Рисунок: Жизненный цикл проекта Data Science
понимание бизнеса
На этом этапе понимаются потребности и цели бизнеса. Этот этап посвящен оценке, планированию, определению моделей управления и критериев успеха.
понимание данных
На этом этапе данные собираются и проверяются. Понимание данных может включать исследовательский анализ данных, визуализацию данных и оценку качества и количества данных.
подготовка данных
Этап подготовки данных является одним из наиболее важных этапов в жизненном цикле проекта по науке о данных. Некоторые из действий, выполняемых на этом этапе, включают определение правильного набора данных, очистку данных, оценку, проектирование данных и признаков.
моделирование
Это один из самых захватывающих этапов жизненного цикла. Наборы данных обычно делятся на тестовые, обучающие и проверочные. Определяется используемый алгоритм. Модели постоянно строятся и оцениваются. Результаты различных моделей интерпретируются в соответствии с критериями успеха и тестирования. Это итеративная фаза, которая продолжается до тех пор, пока результаты не достигнут желаемого эталона.
оценивать
Этап оценки фокусируется на оценке модели относительно бизнес-целей. Эта оценка отличается от оценки на предыдущем этапе, которая представляет собой техническую оценку модели. Общая оценка включает проверку и измерение критериев успеха и определенных показателей.
развертывать
На этом этапе модель развертывается и вводится в эксплуатацию. Модели машинного обучения часто интегрированы и связаны с продуктами и приложениями. Это могут быть веб-приложения, десктопные или мобильные приложения. Модели машинного обучения также развертываются на устройствах и сегодня все чаще применяются и широко используются в периферийных вычислениях.
Резюме
Содержание этой статьи относится к процессу CRISP-DM. Существуют и другие известные процессы для проектов по науке о данных и интеллектуальному анализу данных, такие как SEMMA, обнаружение знаний в базах данных (KDD) и т. д. Благодаря широкому внедрению гибких и масштабируемых гибких методологий большинство процессов жизненного цикла науки о данных адаптированы для удовлетворения конкретных потребностей бизнеса с упором на итеративную и инкрементальную разработку и прозрачность.