- Оригинальный адрес:Data Science for Startups: Introduction
- Оригинальный автор:Ben Weber
- Перевод с:Программа перевода самородков
- Постоянная ссылка на эту статью:GitHub.com/rare earth/gold-no…
- Переводчик:Про книга
- Корректор:yqian1991
Фото предоставлено: rawpixel Опубликовано вpixabay.com
Недавно я сменил отрасль и присоединился к стартапу, чтобы создать отдел обработки данных. Когда я присоединился к команде, уже существовал надежный конвейер данных, но не было процесса воспроизводимого анализа, масштабирования моделей и проведения экспериментов. Цель этой серии сообщений в блоге — рассказать, как с нуля создать платформу обработки данных для стартапов и использовать Google Cloud Platform (GCP), чтобы предоставить читателям реальные примеры, которые они могут попробовать сами.
Эта серия предназначена для специалистов по данным и аналитиков, которые хотят выйти за рамки этапа обучения модели и хотят создать конвейеры данных и продукты данных, которые могут оказать влияние на их компанию. Но это также полезно для других дисциплин, которые хотят лучше понять, как работать с учеными данных для проведения экспериментов и создания продуктов данных. Она предназначена для читателей с опытом программирования, и в этой серии в основном используются примеры кода из R и Java.
Почему стоит выбрать науку о данных?
Один из первых вопросов, который нужно задать при найме специалиста по обработке и анализу данных для вашего стартапа:Как наука о данных улучшит наши продукты? существуетWindfall Data, наш продукт — это данные, поэтому цели науки о данных могут быть хорошо согласованы с целями компании, чтобы построить наиболее точную модель оценочной чистой стоимости. В других компаниях (например, в компаниях, занимающихся мобильными играми) ответ может быть менее простым, и наука о данных может быть более полезной для понимания того, как вести бизнес, чем для улучшения продукта. Но часто бывает полезно начать собирать данные о поведении клиентов на ранней стадии, чтобы вы могли улучшить свой продукт в будущем.
Преимущества запуска науки о данных в стартапе:
- Может определить ключевые бизнес-показатели для отслеживания и прогнозирования
- Может строить прогностические модели поведения клиентов
- Можно проводить эксперименты для проверки изменений продукта.
- Может создавать продукты данных, которые поддерживают новые функции продукта
Многие компании увязают в первых двух или трех шагах и не реализуют весь потенциал науки о данных. Цель этой серии сообщений в блоге — показать, как использование управляемых сервисов позволяет небольшим командам выйти за рамки создания конвейеров данных и просто рассчитать операционные бизнес-метрики компаниям, где наука о данных может внести критически важный вклад в продукты.
Обзор серии
Ниже мой план темы для этой серии блога. Когда я пишу новые разделы, я могу добавлять или перемещать разделы. Если вы считаете, что следует затронуть другие темы, вы можете указать их в конце статьи.
- Введение (т. е. эта статья): обеспечивает мотивацию для использования науки о данных в стартапах и дает обзор того, что рассматривается в этой серии статей. Подобные статьи включаютОсобенности науки о данных,Расширение науки о данныхиМой финтех-путешествие.
- данные отслеживания: Обсудите мотивы сбора данных из приложений и веб-страниц, предложите различные способы сбора данных отслеживания, расскажите о таких вопросах, как конфиденциальность и мошенничество, и используйте Google PubSub в качестве примера.
- конвейер данных: описывает, как использовать различные методы сбора данных для использования группами аналитиков и специалистов по обработке и анализу данных, обсуждает подходы к работе с плоскими файлами, базами данных и пулами данных, а также знакомит с реализациями на основе PubSub, DataFlow и BigQuery. Подобные статьи естьМасштабируемый конвейер аналитикииЭволюция платформ игровой аналитики.
- Бизнес-аналитика: Знакомство с общепринятыми методами ETL, автоматизация отчетов/панелей мониторинга и расчет операционных показателей бизнеса и KPI. На примере R Shiny и Data Studio.
- Исследовательский анализ: Охватывает общие методы анализа, используемые для сбора данных, такие как построение гистограмм и кумулятивных функций распределения, корреляционный анализ и определение важности признаков для линейных моделей. использоватьNatalityОбщедоступные наборы данных для примера анализа. Подобные статьи есть1% перед полимеризациейи10 лет визуализации данных.
- прогнозное моделирование: Обсуждаются контролируемые и неконтролируемые методы обучения, а также вводятся модели прогнозирования оттока и перекрестного продвижения, а также методы оценки эффективности автономной модели.
- моделирование: показывает, как масштабировать автономные модели до миллионов записей, а также обсуждает пакетные и интерактивные подходы к развертыванию моделей. Подобные статьи естьПродуктизация науки о данных на Twitch,иГенерация моделей с использованием DataFlow.
- эксперимент: знакомит с A/B-тестированием продукта, обсуждает, как настроить платформу для проведения экспериментов, а также предоставляет анализ примеров R и начальной загрузки. Подобные статьи естьПоэтапное A/B-тестирование.
- Рекомендуемая система: Знакомит с основами рекомендательных систем и предоставляет примеры масштабирования рекомендательных систем для производственных систем. Подобные статьи естьРекомендательное прототипирование.
- глубокое обучение: Кратко опишите некоторые проблемы науки о данных, которые лучше всего решаются с помощью глубокого обучения, например пометка сообщений чата как оскорбительных. обеспеченыKerasПример прототипа модели интерфейса R, а также использованиеCloudMLИнтерфейс R для производства.
эта серия тоже естьонлайн-версияипечатная версиякнига.
инструмент
На протяжении всей серии я буду рассматривать примеры кода, созданные на Google Cloud Platform. Я выбрал GCP, потому что он предлагает множество управляемых сервисов, которые позволяют небольшим командам создавать конвейеры данных, создавать прогностические модели и использовать глубокое обучение. Вы также можете подписаться на бесплатную пробную версию GCP и получить баланс в размере 300 долларов США. Достаточно запустить большинство тем, затронутых в этой серии, с помощью бесплатной пробной версии GCP, но если ваша цель — глубоко погрузиться в глубокое обучение в облаке, срок ее действия скоро истечет.
Что касается языков программирования, я буду использовать R для сценариев, Java для производства и SQL для данных в BigQuery. Я также представлю другие инструменты, такие как Shiny. Читателю рекомендуется иметь некоторый опыт работы с R и Java, так как я не буду освещать основы этих языков.
Ben WeberИсследователь данных в игровой индустрии с опытом работы в Electronic Arts, Microsoft Studios, Daybreak Games и Twitch. Он также является первым специалистом по данным в финтех-стартапе.
Если вы обнаружите ошибки в переводе или в других областях, требующих доработки, добро пожаловать наПрограмма перевода самородковВы также можете получить соответствующие бонусные баллы за доработку перевода и PR. начало статьиПостоянная ссылка на эту статьюЭто ссылка MarkDown этой статьи на GitHub.
Программа перевода самородковэто сообщество, которое переводит высококачественные технические статьи из Интернета сНаггетсДелитесь статьями на английском языке на . Охват контентаAndroid,iOS,внешний интерфейс,задняя часть,блокчейн,продукт,дизайн,искусственный интеллектЕсли вы хотите видеть более качественные переводы, пожалуйста, продолжайте обращать вниманиеПрограмма перевода самородков,официальный Вейбо,Знай колонку.