Современные команды обработки данных и разделение труда

анализ данных

Я написал статью, когда только начинал«Состав команды проекта данных»В то время команда данных была разделена на три роли: специалист по данным, аналитик данных и инженер данных в соответствии с их навыками. Однако, проработав несколько лет, я обнаружил, что разделение труда на практике на самом деле более детальное и сложное, а также предполагает больше возможностей. В этой статье будет рассказано о разделении труда в data-командах на практике.

Различные навыки и разделение труда

Прежде всего, сначала разделим его на три типа по навыкам и должностям:

https://news.efinancialcareers.com/uk-en/3001517/data-science-careers-finance

  1. Хорошо разбирается в #analyticalapplications: Data Analyst (аналитик данных)
  2. Хорошо разбирается в #программной реализации: Data Engineer
  3. Хорошо разбирается в #modeltheory: Data Scientist

Другими словами, они «просматривают данные», «настраивают данные» и «воспроизводят данные» соответственно. Однако реальное разделение труда и функций на самом деле будет более сложным, есть несколько распространенных ситуаций:

  • Разрыв между учеными данных и инженерами данных
  • Кто будет выполнять «развертывание/онлайн» работу модели?
  • «Аналитик данных» и «Бизнес-аналитик»

Разрыв между учеными данных и инженерами данных

Существует небольшое совпадение между учеными данных, которые хорошо разбираются в моделях, и инженерами данных, которые хорошо разбираются в программировании. Обычный способ сотрудничества — обучить хорошую модель специалистом по данным, а затем вызвать инженера данных для ее использования. Однако иногда возникают проблемы с производительностью в результате развертывания или работы, требующей повторной настройки. Когда модель сталкивается с проблемой, возникают ситуации, которые трудно решить с обеих сторон.

https://www.oreilly.com/radar/data-engineers-vs-data-scientists/

Поэтому мы определяем как «инженеров по машинному обучению машинного обучения» людей, которые имеют как теорию моделей, так и реализацию программ, и они обычно знакомы с частью манипулирования моделями с помощью программ.

Кто будет выполнять «развертывание/онлайн» работу модели?

Другой распространенный сценарий — когда модель, наконец, развернута инженером и запущена. Когда могут быть важные ошибки или требуются периодические обновления, часто необходимо перезапустить весь процесс. В традиционной модели разработки будут инженеры по обслуживанию, ответственные за интеграцию автоматизации от разработки до запуска в ряд рабочих линий. Эта идея переносится в контекст науки о данных, известного как инженер по обслуживанию машинного обучения MLOP, основная концепция которого заключается в более тесной автоматизации обучения и развертывания моделей.

https://medium.com/ki-labs-engineering/feature-engineering-automation-and-evaluation-part-1-a34fb42e0bd4

«Аналитик данных» и «Бизнес-аналитик»

«Аналитик данных» также является важной функцией в индустрии данных, и эта должность существовала задолго до бума науки о данных. Аналитики данных пересекаются с учеными данных с точки зрения навыков работы с данными. Думаю, по сценариям использования разница хорошо видна. Аналитики данных подчеркивают, «как найти подходящие проблемы, которые можно решить с помощью данных», а также остроту понимания и определения проблем с данными. Насколько мне известно, аналитики данных немного более требовательны к исследованию и визуализации данных. Специалисты по данным, с другой стороны, уделяют больше внимания моделям и теориям и нуждаются в более полной системе знаний о данных, таких как статистика, оптимизация и модели данных.

В прошлом мы могли использовать «программную мощь» или «математическую мощь», чтобы разделить следующий шаг аналитика данных на «инженера данных» или «ученого данных», но на самом деле есть другой вариант — «бизнес-аналитик». Бизнес-аналитики уделяют больше внимания тому, как использовать данные для решения бизнес-задач и найти сценарий приложения, подходящий для подхода к данным. Для бизнес-аналитиков требуется определенная чувствительность как к данным, так и к бизнесу. Науку о данных часто оптимизируют с теоретической точки зрения, которая может не совпадать с назначением коммерческих приложений, и «бизнес-аналитики» могут играть в ней роль перевода.

Пути совершенствования из разных слоев общества

Любой может стать специалистом по данным, если захочет. Наука о данных — это междисциплинарный навык, который требует как междисциплинарных возможностей, так и непредубежденности. Вот некоторые общие предыстории и подходящие пути развития:

http://educlasses.co.in/data-scientist-vs-data-engineer-vs-data-analyst-comparison.html

Если вы уже являетесь инженером-программистом, вы можете начать как инженер данных с высокими требованиями к программе. Статистическое/математическое образование, подходящее для исследования моделей науки о данных. В большинстве других случаев рекомендуется планировать постепенно, начиная с отправной точки аналитика данных.

Команда данных и разделение труда

Наконец, мы будем использовать различные позиции, упомянутые выше, чтобы соответствовать рабочему процессу науки о данных:

На самом деле, проект данных требует команды и, как правило, разделяет навыки работы с данными на несколько разных вакансий. После совершенствования своих соответствующих функций они могут выполнять мощную работу и достигать четкого диапазона защиты. Однако идеал очень пухленький, а реальность очень худенькая.Во многих небольших коллективах персонаж будет назначен на аудиторию первым:

Информационным проектам нужна команда

Чтобы завершить хороший проект данных, вы не можете просто полагаться на мощную электростанцию, вам нужна группа данных, которая работает без сбоев. Междоменная интеграция также является важным ключом приложения. Независимо от объема данных проекты данных основаны на различных областях, таких как информация, статистика и визуализация. Но на самом деле одному человеку сложно иметь столько возможностей одновременно, поэтому в проектах с данными больше нужна командная работа.

В соответствии с бизнес-потребностями компании и уровнем приложений создание наиболее подходящей группы обработки данных имеет решающее значение.


Привет, меня зовут Вейюань, и я продолжаю публиковать статьи о #datascience, #webdevelopment или #softwarecareer на разных платформах. Если у вас есть какие-либо вопросы по содержанию, вы можете общаться с нами дальше, вы можете подписаться на меня.Facebook Follower: День Data Scientist на работе, также будет время от времени проводить мероприятия по обмену информацией, давайте повеселимся вместе ヽ(●´∀`●)ノ

В эпоху больших данных сбор данных и поиск программ уже являются базовыми цифровыми навыками! В настоящее время планируется [Супер новичок также может использовать поисковый робот Python для создания веб-сайта сравнения цен.] онлайн-курсы, чтобы собрать огромное количество информации одним щелчком мыши и помочь вам создать веб-сайт для сравнения цен. ​От сбора данных, сортировки данных до окончательного подчиненного отображения, преобразования массивных данных в визуальные диаграммы и объединения с реализацией веб-сайта для создания реальных целевых приложений​ ???

? Заполните анкету, чтобы получить бесплатные курсы:pse.is/3fyr4n
? Заполните анкету, чтобы получить бесплатные курсы:pse.is/3fyr4n
? Заполните анкету, чтобы получить бесплатные курсы:pse.is/3fyr4n