Вы понимаете свои данные? (Цзе Дан)

искусственный интеллект

0x00 Предисловие

Глава «Дан Дэн» — это четвертая глава «Знаете ли вы свои данные?» Основное содержание этой главы в основном связано с мониторингом качества данных.«Мониторинг качества данных»Я специально поделился релевантным контентом. В этой статье в основном рассматривается мониторинг качества с макро-перспективы, включая архитектуру, дизайн и реализацию. Однако нет систематического обзора содержания самого мониторинга качества данных. В этой статье просто сделайте это.

0x01 Контроль качества данных

Мониторинг качества данных, которым мы собираемся поделиться, относится не только к аномалиям данных, но и к описаниям данных под разными углами.

г/г и м/м

Чтобы лучше описать наши идеи позже, нам нужно ввести здесь два понятия:

  • Год к году: «Год к году» означает соотношение за тот же период, обычно относящееся к сравнению совокупного индекса определенного месяца этого года и совокупного индекса того же месяца предыдущего года.

  • Кольцевой коэффициент: представляет собой попериодное соотношение отчетного периода (например, определенный месяц (год) соответствует предыдущему месяцу (году), а предыдущий месяц (год) соответствует предыдущему месяцу (году)) , сравнение.

Годовые и месячные отношения, используемые в нашем фактическом мониторинге качества данных, будут выглядеть следующим образом:

  • В годовом исчислении: общий объем данных, к которым служба получила доступ 1 числа этого месяца, и общий объем данных, к которым служба получила доступ 1 числа предыдущего месяца.
  • Месяц: Отношение объема доступа к данным предприятия на 2-е число этого месяца к объему доступа к данным предприятия на 1-е число этого месяца.

Мониторинг контента

При мониторинге качества данных мы делим отслеживаемый контент на три уровня:

  1. Общее состояние кластера: это также упоминается в главе обучения Qi, например, общая емкость кластера и объем услуг доступа.
  2. Бизнес-уровень: для мониторинга одного бизнеса, в частности, это может быть мониторинг таблицы, например, он будет отслеживать тенденцию объема данных, падает ли он на 0 в определенный день, задержка поступления данных, данные из года в год и месяц за месяцем и т.
  3. Уровень измерения: содержание, которое я хочу выразить здесь, заключается в отслеживании основных измерений основного бизнеса, таких как таблица поведения пользователей на веб-странице, мы будем отслеживать поле ip в таблице, сколько пустых каждый день; или таблица пользовательских данных Отслеживайте повторяющиеся данные.

Чтобы сделать грубую карту, это будет следующая картинка:

[Ошибка загрузки изображения...(image-81a5d-1516514430422)]

0xFF Сводка

Конечно, содержание мониторинга качества данных будет не только таким небольшим, например, разные механизмы хранения, такие как hdfs, es и mysql, будут иметь разные характеристики, а также конкретные бизнес-сценарии будут иметь разные требования к качеству данных, которые мы не делаю. , это просто введение, чтобы привлечь других, и я с нетерпением жду возможности улучшить его вместе.

Наконец, давайте поговорим о том, почему мониторинг качества данных смешивается с серией статей «Знаете ли вы свои данные». На самом деле автор понимает, что так называемый мониторинг качества данных, в широком смысле, должен быть мониторингом данных. Цель мониторинга данных состоит в том, чтобы позволить людям или системам лучше понимать данные и управлять ими. Мы организуем и представляем данные в таком систематическом виде. Содержимое данных на самом деле представляет собой набор систем знаний, и его цель — помочь людям лучше понять ваши данные.


автор:Мастер Мудонг |короткая книга | CSDN | GITHUB

Домашняя страница:www.mdjs.info

Статьи могут быть воспроизведены с указанием первоисточника и сведений об авторе статьи в виде гиперссылок.