Автор: Л.Дж. МИРАНДА
Перевод: Лао Ци
Книги, связанные с этой статьей: «Изучаем Python с помощью Old Qi: анализ данных», «Подготовка данных и разработка функций».
Состояние науки о данных
Сфера науки о данных меняется с каждым днем, и в наши дни уже не модно подкреплять науку о данных такими утверждениями, как «самая сексуальная работа 21 века» и «данные — это новая нефть». более реалистичные бизнес-задачи и более рациональные технические задачи, а также изменения, с которыми сталкивается наука о данных, — вот эти два аспекта. Поэтому сейчас нам необходимо: (1) анализ требований производства и экспериментов, (2) быстрое применение облачных технологий.
Во-первых, потребности производства с годами растут. Например: создание продукта данных или выпуск экспериментального продукта в рамках жизненного цикла разработки программного обеспечения. Об этом свидетельствует растущее число инженерных рабочих мест, появившихся с появлением инженеров по машинному обучению и разработчиков программного обеспечения для обработки данных. Кроме того, анализ данных больше не ограничивается печатью диаграмм, и существует широкий и растущий спрос на запуск продуктов, воспроизведение экспериментальных процедур и т. д.
Во-вторых, экспоненциальный рост данных делает облачные вычисления общей тенденцией. Мы не можем загрузить набор данных объемом 1 ТБ с помощью собственного ноутбука! Популярность таких инструментов, как Docker и Kubernetes, позволила нам масштабировать рабочие нагрузки по обработке данных до беспрецедентного уровня. Использование облачных технологий означает, что мы должны учитывать масштабируемость системы, распределение ресурсов и соответствующую инфраструктуру. Однако, несмотря на то, что предыдущая экосистема Jupyter была основной частью набора инструментов специалиста по обработке и анализу данных, она не применялась к этим изменениям:
Как я уже сказал, Jupyter, как мы его знаем, не работает с этими изменениями. Экосистема Jupyter хороша для исследования, а не производства. Огромные данные должны работать на одной машине, а не на группе машин. Однако за последние пять лет экосистема Jupyter выросла. Теперь у нас есть JupyterLab, несколько плагинов, новые ядра для других языков и сторонние инструменты. Конечно, мы все еще можем сделать это, набрав в терминалеjupyter notebook
запустить, но сейчас этого подхода далеко не достаточно для удовлетворения спроса!
Возникает вопрос: какие силы движут этими изменениями? И как мы можем использовать эту более крупную экосистему ноутбуков, чтобы реагировать на сегодняшние изменения в науке о данных?
Три силы перемен
Экосистема ноутбуков Jupyter растет, и я думаю, что это обусловлено тремя факторами:
-
Облачная платформа. Для больших данных требуется много вычислений и ресурсов хранения, а машины, используемые средним потребителем, не всегда могут удовлетворить потребности.
-
Среда разработки: все больше и больше групп специалистов по обработке и анализу данных перенимают лучшие практики разработки программного обеспечения — операции управления версиями, такие как git и запросы на вытягивание.
-
Быстрый переход от анализа к производству: проверки гипотез в контролируемой среде недостаточно, программное обеспечение, написанное для анализа, должно быть легко повторно использовано в производстве.
Переход к облачной среде означает, что мы можем полагаться на более мощные машины для выполнения задач на базе ноутбуков. Например, разместив проект на сервере, Jupyter можно запускать удаленно, и этот удаленный сервер позволяет выполнять различные связанные конфигурации среды. С другой стороны, растущая оптимизация производственной работы предоставила нам набор инструментов, которые позволяют нам выполнять разработку с помощью инструментов на основе Jupyter. Я покажу больше этих инструментов в следующей части этой статьи.
Наконец, обратите внимание, что развитие инструментов не привязано к отдельному объекту или организации. Как мы увидим позже, эти пробелы могут быть заполнены отдельными лицами или организациями, которые вносят сторонние плагины.
в заключении
В первой части этой серии мы рассмотрели два драйвера в области науки о данных: (1) технология облачных вычислений и (2) растущий спрос на производство. Мы видим, что Jupyter — лишь малая часть этой экосистемы. Тем не менее, экосистема Jupyter часто используется для исследования (а не производства) и работает только на локальном компьютере (не в облаке).
Затем, используя ту же структуру, мы определили три движущие силы изменений, которые обеспечивают рост экосистемы Jupyter. Эти силы могли стимулировать разработку новых инструментов, плагинов и продуктов для удовлетворения реальных потребностей.
В следующей части этой серии я расскажу, как использовать Jupyter для обработки этих изменений. Я расскажу о некоторых инструментах и рабочих процессах, которые сыграли важную роль в моей повседневной работе и побочных проектах. быть в курсе.
Оригинальная ссылка:ЖЖ В Миранда921.GitHub.IO/notebook/20…
Найдите общедоступный номер технических вопросов и ответов: класс Лао Ци
Ответ в публичном аккаунте:Лао Цидля просмотра всех категорий статей.