О саморазвитии специалиста по данным

искусственный интеллект анализ данных база данных SQL
О саморазвитии специалиста по данным

Автор | Хуэй Линь

Главный редактор | Хэ Юнкан


Прежде чем ответить на этот вопрос, я надеюсь, вы задумались над другим вопросом: зачем становиться специалистом по данным? Конечно, если вы ищете годовую зарплату в 100 000 долларов, это нормально, но я искренне надеюсь, что вы сможете связать эту карьеру со своим чувством собственного достоинства. Потому что путь к тому, чтобы стать специалистом по данным, может быть трудным, но если вы видите в этом способ реализовать свою личную ценность, то стремление к цели приводит к длительному чувству выполненного долга, радости и мотивации в процессе.


Пакет навыков Data Scientist

Чтобы ответить на вопрос "каким быть...", конечно, нужно сначала знать, каким ты хочешь быть. Рисунок 1 представляет собой таблицу навыков специалиста по данным.


Рис. 1. Навыки Data Scientist

Прежде всего, умение программировать — это базовый навык, который нужен специалистам по данным. Эти инструменты необходимы для всего процесса чтения данных, интеграции, анализа моделирования и визуализации. В отраслевой среде вся цепочка данных условно делится на пять блоков:

  • Облачная система хранения данных. Например, облачный сервис Amazon AWS позволяет распределять большие данные в S3. AWS больше похож на экосистему с базой данных, и вы можете запускать на ней некоторый код, например, собирать данные с сайтов социальных сетей в режиме реального времени и хранить их в облачной базе данных. Недавно Amazon также предоставил инструмент, аналогичный SQL-клиенту в облаке, под названием Athena, который удобен для написания кода SQL непосредственно в AWS для чтения данных из S3.

  • дверь безопасности. Чтение и запись данных должны проходить через эти ворота безопасности, которые в основном устанавливаются ИТ-отделом компании. Есть 3 способа ограничить доступ к защитной двери:

    • IP-адрес: принимать доступ только с определенных IP-адресов

    • Функции: например, доступ имеют только люди с такими должностями, как Data Scientist и Data Engineer.

    • Имя пользователя и пароль: Компании часто используют все три метода одновременно, то есть есть определенные функции, с определенных IP-адресов, доступ через логины и пароли. Инженеры данных будут обучать специалистов по данным, чтобы пройти через эти ворота безопасности. Требования к компьютеру для специалистов по обработке и анализу данных здесь невелики, просто нужно знать основы Linux, а вся тяжелая работа выполняется инженерами.

  • SQL-клиент. Специалистам по данным необходимо прочитать соответствующие данные из базы данных через SQL. В зависимости от базы данных типы и синтаксис использования SQL немного отличаются, но в целом очень похожи. Очень важно освоить основные операции чтения базы данных.

  • анализ данных. Наиболее широко используемые языки анализа данных — R и Python, владение хотя бы одним из этих языков стало почти стандартом для специалистов по данным. Подойдет только SAS? нет. Конечно, это всего лишь инструменты, а инструменты — это средство решения проблемы, а не ее цель. У вас должен быть инструмент, который вы можете использовать для анализа данных.Предпочтения варьируются от человека к человеку, но лучше всего учитывать гибкость и масштабируемость инструмента при выборе инструмента. Например, можно ли с помощью этого инструмента реализовать новые методы? Можно ли комбинировать этот инструмент с другими инструментами для достижения новых функций (повторяющиеся отчеты, интерактивная визуализация, преобразование результатов в приложения для обработки данных и т. д.)? Легко ли интегрировать инструмент в прикладную систему для крупномасштабного использования (например, алгоритмы рекомендаций для электронной коммерции, оптимизация рекламы для поиска, рекомендации по удобрениям в точном земледелии и т. д.)?

  • Отчет о результатах. Здесь будут использоваться интерактивная визуализация на основе D3.js, автоматизированная отчетность Rmarkdown и приложения Shiny.

Рисунок 2 представляет собой диаграмму архитектуры потока данных.


Рис. 2 Архитектура потока данных

Еще одним важным навыком является аналитическое моделирование. Этот модуль можно разделить на следующие:

  • Специалисты по данным должны иметь базовые знания о вероятности и статистике, а также владеть t-тестом, тестом квадратного корня, тестом согласия и дисперсионным анализом.Может четко объяснить разницу между ранговой корреляцией Спирмена и корреляцией Пирсона. Знаком с понятиями, связанными с выборкой, распределением вероятностей и планированием эксперимента.

  • Понимание байесовской статистики(Скоро можно будет написать теорему Байеса на доске). Не все области прикладной науки о данных требуют использования байесовского подхода, и даже если вы работаете в отрасли, где он редко используется, необходимо понимать основные концепции байесовского подхода. Есть много способов использовать слово «байесовский». Но в основном он представляет собой особый способ интерпретации вероятности. Говоря общепринятым языком, байесовский вывод — это не что иное, как подсчет возможных вариантов развития событий при заданной гипотезе. Гипотезы с большим количеством вещей с большей вероятностью окажутся верными. Как только мы определили гипотезу, байесовский вывод применяет чисто логический процесс вывода на основе наблюдаемой информации. Частотный метод требует, чтобы все определения вероятности были связаны с исчисляемыми событиями и их частотой в большой выборке. Это делает частотную неопределенность зависимой от предпосылки выборки мнимых данных — если мы повторим измерение много раз, мы соберем ряд значений, демонстрирующих закономерность. Это также означает, что параметры и модели не могут иметь распределения вероятностей, только измерения имеют распределения вероятностей. Распределение этих измерений называется распределением выборки. Эти так называемые выборки являются просто предположениями, и во многих случаях это предположение очень необоснованно. С другой стороны, байесовский подход рассматривает «случайность» как качество информации, которое больше соответствует тому, как мы воспринимаем мир. Следовательно, во многих сценариях применения байесовский подход также более подходит.

  • Навыки, связанные с машинным обучением.Знайте, что такое обучение с учителем и что такое обучение без учителя. Знать важные методы кластеризации, дискриминантные и регрессионные методы. Знать модель, основанную на штрафной функции, анализе ассоциативного закона. Часто используемые модели черного ящика: случайные леса, адаптивное повышение, модели нейронных сетей. Если вы занимаетесь приложениями, связанными с психологией (такими как опросы потребителей), вам также необходимо знать основные модели скрытых переменных, такие как исследовательский факторный анализ, подтверждающий факторный анализ и моделирование структурными уравнениями. В процессе применения также необходимо укрепить понимание исходной классификации ошибок в модели и знать соответствующие методы работы с ошибками. Существует так много моделей машин, что понимание ошибки модели может помочь вам эффективно найти достаточно хорошую модель, попробовав небольшое количество моделей.

В дополнение к техническим компетенциям требуются и другие нетехнические компетенции. К ним относится способность переводить практические проблемы в проблемы с данными, процесс, который требует общения и, следовательно, требует хороших коммуникативных навыков. Внимание к деталям, анализ – это профессия, требующая внимательности и терпения. Также есть возможность представить результаты, как сделать результаты модели понятными для клиентов без аналитического бэкграунда, и в итоге применить выводы модели на практике.

Этот список можно продолжать и продолжать. Выглядит ли это более чем немного страшно? На самом деле этот список навыков является динамическим, вам не обязательно иметь все вышеперечисленные навыки в начале, но в процессе работы вам необходимо продолжать учиться и расти. Хороший специалист по данным — это не тот, кто находит стандартные ответы с помощью данных, а тот, кто принимает и адаптируется к миру, полному неопределенности, и дает полезные решения. Столкнувшись с аналитическим проектом, зрелый специалист по данным увидит множество возможностей и несколько методов анализа.После предоставления результата он все равно обращает внимание на результат и продолжает часто обновлять его с небольшими приращениями. Опять же, способность к самообучению и способность учиться на протяжении всей жизни являются необходимыми условиями для хорошего специалиста по данным.


Как приобрести соответствующие навыки

Теперь у вас должно быть общее представление о том, какими навыками должен обладать специалист по данным. Следующий вопрос заключается в том, как приобрести эти навыки. Ответ на этот вопрос частично зависит от вашего профессионального опыта. Нынешний опыт специалистов по данным на самом деле очень сложный.Здесь мы в основном ориентируемся на ситуацию со степенью бакалавра или выше в области математики, статистики, компьютерных или других дисциплин количественного анализа (электронная инженерия, исследование операций и т. д.). Учащимся, имеющим образование в области математики и статистики, необходимо усилить обучение компьютерным навыкам. Учащиеся, имеющие опыт работы с компьютером, должны знать больше о статистической теории. В случае других дисциплин количественного анализа может потребоваться укрепление обеих.

Есть два сценария для студентов других специальностей, чтобы стать учеными данных:

  • Занимается анализом данных компаний, относящихся к собственным профессиональным отраслям. Например, в некоторых компаниях, занимающихся приложениями для точного земледелия, часто можно увидеть, что специалисты по данным имеют докторскую степень в области экологии или докторскую степень в области почвоведения. На самом деле этих людей нельзя считать учеными данных в широком смысле. Поскольку проблемы, с которыми они сталкиваются, ограничены очень специфическими областями, знание экологии и почв требует больше, чем анализ данных.

  • Хотя у других специальностей есть сильные навыки работы с компьютером, например, студенты-физики станут учеными данных или количественными трейдерами, потому что они обычно имеют хорошие навыки программирования.

Что касается степени ученых данных, согласно статистике 2017 года, 41% специалистов по данным в Соединенных Штатах имеют докторскую степень, 49% имеют степень магистра и только 10% имеют степень бакалавра. Темы аспирантуры лучше всего ориентируются на машинное обучение, интеллектуальный анализ данных или модели прогнозирования. Следующее, что вам нужно, это навыки работы с базами данных. На работе часто бывает необходимо прочитать данные из базы данных с помощью SQL. Студентам, изучающим статистику или математику, SQL может не понадобиться в школе, поэтому он не очень знаком. Не беда, я только начал пользоваться SQL после работы. Но вы хотите убедиться, что вы владеете хотя бы одним языком программирования, и вы можете быстро выучить его, когда столкнетесь с новым языком, который вам нужно использовать. Существует множество курсов MOOC, а также несколько онлайн-видео по науке о данных, которые являются отличным способом улучшить себя.

Некоторые люди спрашивают меня, как выбрать курс обучения. Обычно я смотрю на лекторов.Если я хочу понять какую-то технологию досконально и ясно, я буду искать людей, которые написали книги в этой области.Если у них есть курсы, они могут выбрать эти курсы, или тех, кто занимается data science Названия отрасли знакомы, например, Wu Enda. Только если вы выберете класс, который ведет такой человек, вы сможете услышать его ясно, потому что эти люди обладают достаточными знаниями соответствующих профессиональных знаний.


Общие недоразумения

Каковы распространенные ошибки в применении науки о данных?

  • Вы можете запустить модель с помощью функции.

Единственный человек, который может водить машину, — это водитель.Чтобы стать автомобильным инженером, недостаточно просто уметь водить. То же самое верно и в области науки о данных. Вам не нужно запоминать все математические формулы, лежащие в основе модели, но вам нужно выучить ее хотя бы один раз, чтобы вы могли перевернуть книгу и объяснить механизм модели.

  • Чем выше точность модели, тем лучше.

В практических приложениях необходимо учитывать как выгоды, так и затраты. Если точность модели составляет 90 %, но для ее повышения до 95 % требуется гораздо более сложная модель, требующая больших вложений в вычислительное оборудование и при этом приносящая небольшой предельный выигрыш, то хорошо быть удовлетворенным с моделью с меньшей точностью. Выбор и оценка модели могут быть самой сложной частью процесса анализа данных.

  • Превосходная технология — это меч Шанфанга.

Примите тот факт, что люди часто иррациональны и что наше поведение и отношение к окружающему миру зависят от наших эмоций. Вы никогда не видите чистую собаку, вы видите милую или непривлекательную собаку, и мы всегда добавляем ко всему свои собственные субъективные суждения. Конечно, то, как ваши коллеги и руководители относятся к вам в вашей компании, также субъективно влияет. К сожалению, это субъективное чувство обычно исходит скорее от вас как от человека, чем от части машины. Одно дело, когда вы думаете, что ваши навыки хороши, лидер думает, что ваши навыки хороши, — это другое, а лидер думает, что ваши навыки полезны, — это совсем другое. В этом отношении Соединенные Штаты и Китай, похоже, ничем не отличаются. Таким образом, «заниматься технологиями» не означает «нормально иметь низкий эмоциональный интеллект».

  • Технологии постоянно обновляются, что делает их ошеломляющими. Бессознательно он обмотался пеной и потерял направление.

Я понимаю, это очень неприятное ощущение. Иногда мне кажется, что я навсегда останусь новичком, но теперь я понимаю, что это реальное состояние мира прямо сейчас. Постоянное обновление станет нормой, это не просто наука о данных, вы должны это делать, потому что все обновляется, и, подобно гонке вооружений, обновление стало способом существования самих вещей. Независимо от того, как долго вы используете один и тот же инструмент, при обновлении вы снова станете нубом. Так что быть новичком нормально, но нельзя следовать тренду, не осознавая этого. Столкнувшись с незнакомой технологией, вы либо говорите, что не понимаете ее, либо изучаете ее. На самом деле, когда вы действительно наберетесь смелости и начнете серьезно изучать такую ​​технику, вы обнаружите, что она не такая уж и загадочная. Конечно, вскоре появятся новые загадочные вещи, и процесс повторится. Но ты растешь в таком цикле, продукты такие, а люди такие.


Состояние науки о данных

Давайте посмотрим на состояние науки о данных с точки зрения данных. Согласно данным LinkedIn, крупнейшего профессионального сетевого сайта, годовая зарплата специалистов по обработке и анализу данных колеблется от 75 000 до 170 000 долларов США, а в среднем составляет 113 000 долларов США. 

Среди них компании, в которых работают специалисты по данным, в основном сосредоточены в компьютерных интернет-компаниях, таких как Microsoft, IBM, Fackbook, Amazon и Google.На рисунке 3 показаны 10 ведущих компаний, в которых работает больше всего специалистов по данным.


Рис. 3. Топ-10 компаний, нанимающих больше всего специалистов по данным

Отрасли, в которых работают специалисты по данным, также сосредоточены в технологических или исследовательских организациях. На рис. 4 показаны 10 ведущих отраслей.


Рисунок 4. Отрасли, в которых сосредоточены 10 лучших специалистов по данным

В разных компаниях разные структуры команд по обработке и анализу данных. Существует два основных типа:

  • Частный.Отдельный отдел науки о данных будет возглавлять руководитель, например директор по науке о данных. Обычно это институт или научно-исследовательский отдел компании. Для специалистов по данным преимуществом работы в таком отделе является возможность технического общения со многими другими специалистами по данным, а также четкий карьерный путь. Недостатком является то, что трудно выделиться и конкурировать со многими другими учеными за некоторые ресурсы (например, возможности для учебных занятий).

  • встроенный. Специалисты по данным работают в разных функциональных отделах. Обычный — специалист по данным в отделе маркетинга. Лидер – это традиционный директор по маркетингу. Преимущество такой команды в том, что она имеет прямой контакт с высшим руководством компании и влияет на бизнес-решения. Поскольку это уникально и легко выделиться, в отрасли есть много возможностей для обучения и конференций, а отдел маркетинга является основным отделом.Если вы хотите развиваться в этой компании, это хорошее место. Недостаток в том, что вы не можете общаться с другими специалистами по данным, многие вещи нужно решать самостоятельно, люди вокруг вас могут только выбрать верить или не верить вам, но особой помощи оказать не могут. Существует опасность со временем отстать в профессиональном плане, поэтому вам необходимо в полной мере использовать ресурсы учебных занятий в отделе маркетинга и активно участвовать в сообществе специалистов по данным. Самым большим недостатком является отсутствие четкой карьерной траектории, так как команда аналитиков на рынке не будет очень большой. Если ваша карьерная цель состоит в том, чтобы в конечном итоге управлять большой командой или функцией, это может не соответствовать вашим целям. Но сама позиция может варьироваться от младшего до старшего.

Позиция Data Scientist относительно новая, поэтому она все еще развивается с точки зрения построения команды и карьерного роста и имеет большие перспективы. Я надеюсь, вы сможете стать специалистом по данным, который постоянно думает и учится на всю жизнь!

Приложение: R-код

Ниже приведен код R двух рисунков в статье.Если вам интересно, вы можете запустить следующий код:

dat<-read.delim("https://raw.githubusercontent.com/happyrabbit/DataScientistR/master/Data/DS.txt")


library(ggplot2)

library(dplyr)


# Топ-10 компаний


df <- dat%>%

select(Companies, ComCt)


colnames(df) <- c("Company", "Counts")

df$Company <- factor(df$Company, levels = df$Company)

ggplot(df, aes(x=Company, y = Counts, fill=Company))+

geom_bar(stat="identity")+theme_minimal() +

coord_flip()+ theme(legend.position="none")


# Топ-10 отраслей


df <- dat%>%

select(Industries, ComCt)


colnames(df) <- c("Industry", "Counts")

df$Industry <- factor(df$Industry, levels = df$Industry)

ggplot(df, aes(x=Industry, y = Counts, fill=Industry))+

geom_bar(stat="identity")+theme_minimal() +

coord_flip() + theme(legend.position="none")


Об авторе: Лин Хуэй, специалист по бизнес-данным компании DuPont, доктор философии Университета штата Айова, США. «Рутина! Автор книги «Машинное обучение: частный урок для специалистов по данным из Северной Америки». С января 2017 года проводит онлайн-лекцию по маркетингу данных по маркетингу Американской статистической ассоциации. Персональный сайт: http://linhui.org/.

Ответственный редактор: Хе Юнкан

Эта статья является оригинальной статьей «Программист» и не может быть воспроизведена без разрешения.