Знаете ли вы свои данные (открытие)

0x00 Предисловие

Вы понимаете свои данные?

Несколько дней назад ко мне внезапно пришло вдохновение, и я захотел разобраться в своем понимании данных, поэтому у меня есть этот блог или эта серия блогов, чтобы поговорить о данных.

Есть много практиков данных, таких как инженеры по разработке данных, инженеры по хранилищам данных, аналитики данных, инженеры по интеллектуальному анализу данных, менеджеры по продуктам данных и т. д. Детская обувь на разных должностях имеет очень разное понимание данных, и их направленность также различна. Итак, есть ли какие-то основы работы с данными, которые должны знать все специалисты по работе с данными? Насколько отличается понимание данных в разных позициях? Нужно ли инженерам по разработке данных понимать, как аналитики данных просматривают данные?

В этой серии блогов мы попытаемся изучить, добыть и обобщить это содержимое, а также вместе летать в океане данных.

0x01 данные? данные!

Несколько вопросов для начала:

Знаете ли вы, какой объем доступа к данным имеет ваша собственная система?
Вы знаете распределение данных?
Знаете ли вы, какие скрытые ямы есть в ваших часто используемых данных?

Если вы не очень разбираетесь в вопросах, упомянутых выше, то мы можем с радостью пообщаться и обсудить вместе в будущем контенте. Если вы ответили "Да" на предыдущие вопросы, то я все же постараюсь вас удержать новыми вопросами. Например:

Теперь, когда вы знаете объем доступа к данным в системе, знаете ли вы ежедневные колебания объема данных? Какой диапазон волатильности является нормальным?
Вы знаете, как выглядит распределение данных? Каково распределение, кроме распределения по полу, возрасту и городу?
В огромном хранилище данных, какие данные используются больше всего, а какие нет, вы это понимаете?
Каковы основные параметры наиболее часто используемого пакета данных? Одинаков ли калибр данных между двумя таблицами с одинаковым измерением?

Предполагая, что вы немного запутались или заинтересовались вышеуказанными вопросами, мы официально начинаем познавательное путешествие по данным.

0x02 Обзор

Теперь мы грубо делим специалистов по работе с данными на эксплуатацию и обслуживание кластера данных, инженеров по разработке данных, инженеров по хранилищам данных, аналитиков данных, инженеров по интеллектуальному анализу данных и менеджеров по продуктам данных.Этот раздел начинается с введения, чтобы примерно объяснить, как разные должности влияют на данные. понимание отличается, и детали будут подробно объяснены позже.

Первое, что следует отметить, это то, что на работе много дублирующихся должностей, связанных с данными, и трудно различать обязанности разных должностей по всем направлениям.Например, инженер по разработке данных сам по себе является большой концепцией, он может обрабатывать данные доступ, очистка данных, разработка хранилища данных, разработка алгоритма интеллектуального анализа данных и т. д., а также аналитики данных, многие аналитики данных выполняют не только анализ данных, но и некоторые требования к извлечению данных, а иногда им приходится выполнять различную обработку самостоятельно.

Чем больше в компании группа данных, тем более дробными будут соответствующие должностные обязанности, и наоборот. Здесь мы сравним инженеров по разработке данных и инженеров по хранилищам данных, чтобы проиллюстрировать разницу в направленности студентов с разными обязанностями по пониманию данных. мы предполагаем, чтоИнженеры по разработке данных сосредоточены на доступе к данным, их хранении и базовой обработке данных.,Инженеры хранилища данных сосредоточены на проектировании и разработке моделей данных (таких как многомерное моделирование)..

Самое основное понимание инженеров по разработке данных заключается в том, что им необходимо знать статус доступа к данным, например, к какому количеству данных осуществляется доступ каждый день, каков общий объем данных, к скольким службам осуществляется доступ, сколько и как большой доступ к каждой услуге.Нормальный ли диапазон волатильности? Затем вы должны иметь представление о периоде хранения данных, например, сколько таблиц имеют период хранения 30 дней, а сколько 90 дней? Сколько хранилища добавляется в кластер каждый день и сколько времени требуется, чтобы хранилище кластера взорвалось?
Инженеры хранилища данных также должны иметь определенное представление о вышеуказанном содержании, но будут различия.Например, инженеры хранилища данных будут уделять больше внимания статусу данных бизнеса, используемого в их модели хранилища. Затем вам также необходимо знать распределение данных конечного бизнеса, например, возрастное распределение, гендерное распределение и географическое распределение в пользовательской таблице. Кроме того, следует также обратить внимание на вопрос калибра данных.Например, существует много таблиц пользовательских данных.Будет ли значение пола каждой таблицы: мужской, женский,неизвестный или есть полезный тип значения: 1 мужской , 2 женщины, 0 неизвестны.
Тогда внимание инженеров по разработке данных может быть сосредоточено на аномалиях данных: задерживаются ли сегодняшние данные, сильно ли колеблется общий объем и является ли уровень доступности данных нормальным.
В центре внимания инженеров хранилища данных на аномалиях данных может быть то, выросло ли сегодня количество данных с полом 0 в посадке данных (это может вызвать перекос данных) и все ли значения определенного ключевого измерения пусты. .

Все приведенные выше примеры могут быть решены вместе в системе мониторинга качества данных, но мы не будем обсуждать здесь структуру системы, а сначала будем иметь общее представление и мышление.

0x03 О содержимом

Итак, как будет выглядеть содержание последующего блога? На данный момент, я думаю, будет два ракурса:

Помимо различия позиций, объясните понимание данных от базового до продвинутого. Например, распределение данных, на самом базовом уровне, вам нужно знать только ежедневный объем доступа; если вы идете глубже, вам нужно знать распределение ключевых измерений, таких как количество мужчин и женщин; если вы углубляетесь , вам может понадобиться знать распределение значений данных по ключевым параметрам, таким как распределение по возрасту, как разумно разделить возрастные группы и пропорции разных возрастных групп.
Некоторые ключевые моменты, на которых будет сосредоточена каждая позиция. Автор считает, что выделить этот момент непросто, поскольку многие позиции имеют высокую степень совпадения, но автор постарается обобщить и надеется, что все вместе обсудят этот вопрос.

0xFF Сводка

Эта статья в основном поднимает некоторые вопросы, и последующая работа постепенно расширит понимание того, как специалисты по обработке данных понимают данные. На самом деле, сначала я хотел использовать такие названия, как «Конфиденциальность данных» и «Восприятие данных», но я чувствовал, что это понятие трудно определить, поэтому я использовал более разговорное название.

Автор считает, что в карьере практиков данных должно быть не только программирование, алгоритмы и системы, но и набор методологий, связанных с данными, которые будут решать задачи в определенной области, даже если ваша система будет изменена с Hadoop на Spark, модель данных изменилась с базового сопоставления политик на глубокое обучение, и эти методологии по-прежнему будут сопровождать вас на протяжении всей вашей карьеры. Поэтому в этой серии блогов мы попытаемся изучить, раскопать и обобщить набор такой методологии и поделиться с вами.

Добро пожаловать в мой публичный аккаунт WeChat! Придерживайтесь оригинального обмена технологиями, ваша поддержка побудит меня продолжать творить! награда

WeChat Pay

Автор этой статьи:Мастер Мудонг
Ссылка на эту статью: Город Муданьцзян.info/2017/12/31/…
Уведомление об авторских правах:Все статьи в этом блоге, если не указано иное, используютCC BY-NC-SA 3.0соглашение. Пожалуйста, укажите источник!