0x00 Предисловие
Глава «Дан Дэн» — это четвертая глава «Знаете ли вы свои данные?» Основное содержание этой главы в основном связано с мониторингом качества данных.«Мониторинг качества данных»Я специально поделился релевантным контентом. В этой статье в основном рассматривается мониторинг качества с макро-перспективы, включая архитектуру, дизайн и реализацию. Однако нет систематического обзора содержания самого мониторинга качества данных. В этой статье просто сделайте это.
0x01 Контроль качества данных
Мониторинг качества данных, которым мы собираемся поделиться, относится не только к аномалиям данных, но и к описаниям данных под разными углами.
г/г и м/м
Чтобы лучше описать наши идеи позже, нам нужно ввести здесь два понятия:
-
Год к году: «Год к году» означает соотношение за тот же период, обычно относящееся к сравнению совокупного индекса определенного месяца этого года и совокупного индекса того же месяца предыдущего года.
-
Кольцевой коэффициент: представляет собой попериодное соотношение отчетного периода (например, определенный месяц (год) соответствует предыдущему месяцу (году), а предыдущий месяц (год) соответствует предыдущему месяцу (году)) , сравнение.
Годовые и месячные отношения, используемые в нашем фактическом мониторинге качества данных, будут выглядеть следующим образом:
- В годовом исчислении: общий объем данных, к которым служба получила доступ 1 числа этого месяца, и общий объем данных, к которым служба получила доступ 1 числа предыдущего месяца.
- Месяц: Отношение объема доступа к данным предприятия на 2-е число этого месяца к объему доступа к данным предприятия на 1-е число этого месяца.
Мониторинг контента
При мониторинге качества данных мы делим отслеживаемый контент на три уровня:
- Общее состояние кластера: это также упоминается в главе обучения Qi, например, общая емкость кластера и объем услуг доступа.
- Бизнес-уровень: для мониторинга одного бизнеса, в частности, это может быть мониторинг таблицы, например, он будет отслеживать тенденцию объема данных, падает ли он на 0 в определенный день, задержка поступления данных, данные из года в год и месяц за месяцем и т.
- Уровень измерения: содержание, которое я хочу выразить здесь, заключается в отслеживании основных измерений основного бизнеса, таких как таблица поведения пользователей на веб-странице, мы будем отслеживать поле ip в таблице, сколько пустых каждый день; или таблица пользовательских данных Отслеживайте повторяющиеся данные.
Чтобы сделать грубую карту, это будет следующая картинка:
[Ошибка загрузки изображения...(image-81a5d-1516514430422)]
0xFF Сводка
Конечно, содержание мониторинга качества данных будет не только таким небольшим, например, разные механизмы хранения, такие как hdfs, es и mysql, будут иметь разные характеристики, а также конкретные бизнес-сценарии будут иметь разные требования к качеству данных, которые мы не делаю. , это просто введение, чтобы привлечь других, и я с нетерпением жду возможности улучшить его вместе.
Наконец, давайте поговорим о том, почему мониторинг качества данных смешивается с серией статей «Знаете ли вы свои данные». На самом деле автор понимает, что так называемый мониторинг качества данных, в широком смысле, должен быть мониторингом данных. Цель мониторинга данных состоит в том, чтобы позволить людям или системам лучше понимать данные и управлять ими. Мы организуем и представляем данные в таком систематическом виде. Содержимое данных на самом деле представляет собой набор систем знаний, и его цель — помочь людям лучше понять ваши данные.
автор:Мастер Мудонг |короткая книга | CSDN | GITHUB
Домашняя страница:www.mdjs.info
Статьи могут быть воспроизведены с указанием первоисточника и сведений об авторе статьи в виде гиперссылок.