0x00 Предисловие
Данные могут быть глубокими или поверхностными, большими или маленькими. Одни и те же данные люди, новички и ветераны тоже очень разные. Эта статья представляет собой введение в понимание данных и состоит из двух частей:
- Доступ к данным, как вы его контролируете? В основном говорят о степени понимания персоналом доступа к данным своих собственных данных доступа.
- Яма данных, сколько правил вы суммировали? При доступе к данным и базовой обработке данных вы столкнетесь со многими аномалиями данных.Вы уже обобщили правила и включили их в свою собственную систему знаний?
0x01 Объем доступа к данным, сколько вы знаете?
Если вы просто не высовываетесь, берете в руки, когда вам это нужно, и ничего не знаете о данных, к которым вы обращаетесь, стоит как можно скорее строить планы, потому что будь то собеседование, отчет о работе или любопытство начальства Сердце, они могут в любой момент задать вам вопрос: сколько всего памяти в нашем кластере? Сколько сейчас данных? Сколько рабочих мест вы получили в общей сложности? Каков ежедневный прирост и сколько фрагментов данных существует? При такой скорости, как долго может существовать кластер?
Вас смущают приведенные выше вопросы? Если вы немного запутались, вы можете взглянуть на рисунок ниже, который является основным содержанием данных, которые, я думаю, вам нужно знать.
Знание ситуации с доступом к данным следует рассматривать как самое основное требование, а это означает, что у нас есть самый простой контроль над тем, за что мы несем ответственность. Для разных людей разница только в степени контроля.
0x02 Яма данных, сколько правил вы суммировали?
Ямы данных есть везде, будь то доступ, очистка или расчет модели, ямы будут. Для этих ям вы придумали способ борьбы с ними? Объем этой темы может быть немного большим, и мы временно сузим ее до доступа к данным и основных процессов очистки данных.
На этом этапе я разделяю яму данных на три части: одна — отсутствующие данные, которая разделена на отсутствующие данные и отсутствующие поля. Второй — аномалии данных на бизнес-уровне, такие как значения, которые не соответствуют бизнес-логике в данных. Третий — аномалии данных на инженерном уровне, в основном сосредоточенные на аномалиях, с которыми сталкивается ETL данных. Подробнее см. рисунок ниже.
Обратите внимание, что все исключения данных, упомянутые выше, являются исключениями данных, но причины исключений данных не объясняются, и при обработке данных не возникают инженерные ошибки. Поскольку эти два момента не сильно связаны с пониманием самих данных, а характеристики разных потоков обработки данных усложнят подведение итогов, поэтому мы их пока обсуждать не будем.
0xFF Сводка
Эта статья является базовой статьей для понимания данных. В ней в основном рассматриваются две темы: доступ к данным и ямы данных, и не обсуждается слишком много деталей. Просто ради привлечения нефрита, и чтобы разобраться в общих идеях.
Добро пожаловать в мой публичный аккаунт WeChat! Придерживайтесь обмена оригинальными технологиями, ваша поддержка побудит меня продолжать творить! наградаWeChat Pay
- Автор этой статьи:Мастер Мудонг
- Ссылка на эту статью: Город Муданьцзян.info/2018/01/13/…
- Уведомление об авторских правах:Все статьи в этом блоге, если не указано иное, используютCC BY-NC-SA 3.0соглашение. Пожалуйста, укажите источник!