Наука о данных для стартапов: введение

глубокое обучение Программа перевода самородков продукт Java

Фото предоставлено: rawpixel Опубликовано вpixabay.com

Недавно я сменил отрасль и присоединился к стартапу, чтобы создать отдел обработки данных. Когда я присоединился к команде, уже существовал надежный конвейер данных, но не было процесса воспроизводимого анализа, масштабирования моделей и проведения экспериментов. Цель этой серии сообщений в блоге — рассказать, как с нуля создать платформу обработки данных для стартапов и использовать Google Cloud Platform (GCP), чтобы предоставить читателям реальные примеры, которые они могут попробовать сами.

Эта серия предназначена для специалистов по данным и аналитиков, которые хотят выйти за рамки этапа обучения модели и хотят создать конвейеры данных и продукты данных, которые могут оказать влияние на их компанию. Но это также полезно для других дисциплин, которые хотят лучше понять, как работать с учеными данных для проведения экспериментов и создания продуктов данных. Она предназначена для читателей с опытом программирования, и в этой серии в основном используются примеры кода из R и Java.

Почему стоит выбрать науку о данных?

Один из первых вопросов, который нужно задать при найме специалиста по обработке и анализу данных для вашего стартапа:Как наука о данных улучшит наши продукты? существуетWindfall Data, наш продукт — это данные, поэтому цели науки о данных могут быть хорошо согласованы с целями компании, чтобы построить наиболее точную модель оценочной чистой стоимости. В других компаниях (например, в компаниях, занимающихся мобильными играми) ответ может быть менее простым, и наука о данных может быть более полезной для понимания того, как вести бизнес, чем для улучшения продукта. Но часто бывает полезно начать собирать данные о поведении клиентов на ранней стадии, чтобы вы могли улучшить свой продукт в будущем.

Преимущества запуска науки о данных в стартапе:

  1. Может определить ключевые бизнес-показатели для отслеживания и прогнозирования
  2. Может строить прогностические модели поведения клиентов
  3. Можно проводить эксперименты для проверки изменений продукта.
  4. Может создавать продукты данных, которые поддерживают новые функции продукта

Многие компании увязают в первых двух или трех шагах и не реализуют весь потенциал науки о данных. Цель этой серии сообщений в блоге — показать, как использование управляемых сервисов позволяет небольшим командам выйти за рамки создания конвейеров данных и просто рассчитать операционные бизнес-метрики компаниям, где наука о данных может внести критически важный вклад в продукты.

Обзор серии

Ниже мой план темы для этой серии блога. Когда я пишу новые разделы, я могу добавлять или перемещать разделы. Если вы считаете, что следует затронуть другие темы, вы можете указать их в конце статьи.

  1. Введение (т. е. эта статья): обеспечивает мотивацию для использования науки о данных в стартапах и дает обзор того, что рассматривается в этой серии статей. Подобные статьи включаютОсобенности науки о данных,Расширение науки о данныхиМой финтех-путешествие.
  2. данные отслеживания: Обсудите мотивы сбора данных из приложений и веб-страниц, предложите различные способы сбора данных отслеживания, расскажите о таких вопросах, как конфиденциальность и мошенничество, и используйте Google PubSub в качестве примера.
  3. конвейер данных: описывает, как использовать различные методы сбора данных для использования группами аналитиков и специалистов по обработке и анализу данных, обсуждает подходы к работе с плоскими файлами, базами данных и пулами данных, а также знакомит с реализациями на основе PubSub, DataFlow и BigQuery. Подобные статьи естьМасштабируемый конвейер аналитикииЭволюция платформ игровой аналитики.
  4. Бизнес-аналитика: Знакомство с общепринятыми методами ETL, автоматизация отчетов/панелей мониторинга и расчет операционных показателей бизнеса и KPI. На примере R Shiny и Data Studio.
  5. Исследовательский анализ: Охватывает общие методы анализа, используемые для сбора данных, такие как построение гистограмм и кумулятивных функций распределения, корреляционный анализ и определение важности признаков для линейных моделей. использоватьNatalityОбщедоступные наборы данных для примера анализа. Подобные статьи есть1% перед полимеризациейи10 лет визуализации данных.
  6. прогнозное моделирование: Обсуждаются контролируемые и неконтролируемые методы обучения, а также вводятся модели прогнозирования оттока и перекрестного продвижения, а также методы оценки эффективности автономной модели.
  7. моделирование: показывает, как масштабировать автономные модели до миллионов записей, а также обсуждает пакетные и интерактивные подходы к развертыванию моделей. Подобные статьи естьПродуктизация науки о данных на TwitchГенерация моделей с использованием DataFlow.
  8. эксперимент: знакомит с A/B-тестированием продукта, обсуждает, как настроить платформу для проведения экспериментов, а также предоставляет анализ примеров R и начальной загрузки. Подобные статьи естьПоэтапное A/B-тестирование.
  9. Рекомендуемая система: Знакомит с основами рекомендательных систем и предоставляет примеры масштабирования рекомендательных систем для производственных систем. Подобные статьи естьРекомендательное прототипирование.
  10. глубокое обучение: Кратко опишите некоторые проблемы науки о данных, которые лучше всего решаются с помощью глубокого обучения, например пометка сообщений чата как оскорбительных. обеспеченыKerasПример прототипа модели интерфейса R, а также использованиеCloudMLИнтерфейс R для производства.

эта серия тоже естьонлайн-версияипечатная версиякнига.

инструмент

На протяжении всей серии я буду рассматривать примеры кода, созданные на Google Cloud Platform. Я выбрал GCP, потому что он предлагает множество управляемых сервисов, которые позволяют небольшим командам создавать конвейеры данных, создавать прогностические модели и использовать глубокое обучение. Вы также можете подписаться на бесплатную пробную версию GCP и получить баланс в размере 300 долларов США. Достаточно запустить большинство тем, затронутых в этой серии, с помощью бесплатной пробной версии GCP, но если ваша цель — глубоко погрузиться в глубокое обучение в облаке, срок ее действия скоро истечет.

Что касается языков программирования, я буду использовать R для сценариев, Java для производства и SQL для данных в BigQuery. Я также представлю другие инструменты, такие как Shiny. Читателю рекомендуется иметь некоторый опыт работы с R и Java, так как я не буду освещать основы этих языков.


Ben WeberИсследователь данных в игровой индустрии с опытом работы в Electronic Arts, Microsoft Studios, Daybreak Games и Twitch. Он также является первым специалистом по данным в финтех-стартапе.

Если вы обнаружите ошибки в переводе или в других областях, требующих доработки, добро пожаловать наПрограмма перевода самородковВы также можете получить соответствующие бонусные баллы за доработку перевода и PR. начало статьиПостоянная ссылка на эту статьюЭто ссылка MarkDown этой статьи на GitHub.


Программа перевода самородковэто сообщество, которое переводит высококачественные технические статьи из Интернета сНаггетсДелитесь статьями на английском языке на . Охват контентаAndroid,iOS,внешний интерфейс,задняя часть,блокчейн,продукт,дизайн,искусственный интеллектЕсли вы хотите видеть более качественные переводы, пожалуйста, продолжайте обращать вниманиеПрограмма перевода самородков,официальный Вейбо,Знай колонку.