задний план
В последних проектах мы реализовали платформу активов данных для наших клиентов. Впоследствии подробные данные бизнес-системы клиентской дочерней компании были подключены к платформе данных. Клиенты надеются получить некоторую ценность для бизнеса и бизнес-инновации за счет изучения и анализа данных на нашей платформе данных.
Когда мы получили данные и начали предварительное исследование, мы обнаружили определенные проблемы с качеством данных, импортируемых в платформу: например, значения некоторых ключевых полей, используемых для анализа данных, были пустыми, а некоторые данные которые должны иметь отношения ведущий-ведомый, не соответствующие вышеизложенному, путаница в классификации данных и т. д. Эти проблемы напрямую влияют на анализ и анализ бизнес-данных. Поэтому мы решили сначала провести оценку качества этих бизнес-данных. Если результаты оценки слишком плохи для проведения полноценного анализа данных, возможно, потребуется изменить направление нашей работы, чтобы помочь клиентам разработать планы и решения для улучшения качества данных.
проблемы с качеством данных
что такое качество
Существует стандартное определение качества: степень, в которой набор неотъемлемых характеристик удовлетворяет потребность или ожидание (требование), которое заявлено, обычно подразумевается или должно быть выполнено. Это содержит два значения: одно состоит в том, что качество на самом деле представляет собой набор характеристик, а другое заключается в том, что качество должно соответствовать потребностям или ожиданиям. Следовательно, с точки зрения анализа данных, качество данных зависит от того, могут ли характеристики текущих данных удовлетворить наши потребности в анализе данных или добыче полезных ископаемых.
источник проблем с качеством
Проблемы с источником данных могут возникать из-за различных связей между источником данных и носителем данных. На этапе сбора данных подлинность, точность, целостность и своевременность данных будут влиять на качество данных. Кроме того, процесс обработки и хранения данных может включать модификацию исходных данных, что вызывает проблемы с качеством данных. Поэтому многие факторы, такие как технология, процесс, управление и т. д., могут влиять на качество данных.
На предприятии, с ростом корпоративного бизнеса, данные также представляют собой процесс постепенного накопления. С постоянным обогащением типов данных, источников данных и быстрым ростом количества данных предприятия сталкиваются со все большим количеством проблем с качеством данных в работе по управлению данными и обработке данных. Кроме того, предприятия не воспринимают всерьез управление качеством данных, и основная причина заключается в том, что рентабельность инвестиций не так очевидна.
Управление качеством данных является относительно дорогим. Потому что это включает в себя разработку стандартов корпоративных данных, внедрение норм и управление жизненным циклом. С точки зрения преимуществ преимущества и результаты качества данных не очень очевидны, и большинство компаний не воспринимают качество данных в качестве KPI. В разных системах предприятия ключевые показатели в бизнес-сфере несовместимы, данные не могут быть разделены, что приводит к возникновению островов данных, большие объемы данных не могут быть сопоставлены, существует очевидная избыточность данных и другие проблемы, а для обслуживания данных необходимо вкладывать много людей, времени, аппаратных и программных средств. Поэтому управление качеством данных часто маргинализируется или даже отсутствует.
Оценка качества данных
Итак, как мы можем оценить качество фрагмента данных? Это довольно сложный вопрос. Потому что само качество данных имеет несколько проблем. Прежде всего, определение качества данных непоследовательно. Не существует справочного стандарта или стандартного определения для понимания людьми качества данных, поэтому понимание людьми качества данных будет отражать разнообразие, и будет ли это система оценки данных или контроль качества данных. системы, она далека от Нет четкого определения качества данных. Во-вторых, не существует авторитетной стандартной модели или эталонной модели качества данных. Кроме того, не существует ни систематического индекса оценки качества данных, ни количественного стандарта для индекса оценки качества данных. Поэтому большая часть текущих исследований качества данных — это исследования конкретных областей или конкретных проблем, которые не являются универсальными, и их трудно превратить в стандартизированную систему или модель.
Затем мы можем построить модель качества данных, например CMMI (интеграция модели зрелости возможностей) и AMM (модель гибкой зрелости), назовем ее DQAM (модель оценки качества данных, модель качества данных).
Прежде всего, подумайте об этом, мы будем выбирать несколько показателей при оценке качества данных, поэтому естественно думать о заимствовании теории нечеткой комплексной оценки. После сбора некоторой информации вот несколько индикаторов, выбранных в качестве наших индикаторов оценки качества данных (конечно, другие индикаторы могут быть выбраны в соответствии с фактическими потребностями, и количество индикаторов может быть больше или меньше):
- Полнота: полнота, который измеряет, какие данные отсутствуют или недоступны
- Соответствие: нормативное, который измеряет, какие данные не хранятся в унифицированном формате
- Консистенция: Консистенция, который измеряет, какие значения данных конфликтуют в информационном значении
- Точность: Точность, который определяет, какие данные и информация являются неверными или устаревшими
- Уникальность: Уникальность, который используется для измерения того, какие данные дублируются или какие атрибуты данных дублируются
- Интеграция: Ассоциативность, который измеряет, какие связанные данные отсутствуют или не проиндексированы
Тогда модель оценки должна иметь следующие элементы:
- Набор данных: набор данных для оценки, которая является таблицей для реляционной базы данных
- Индикаторы: индикаторы оценки, то есть 6 индикаторов, перечисленных выше
- Правило: правило оценки, соответствующие вышеуказанным оценочным показателям, и в дальнейшем будут написаны скрипты по описанию правил.
- Вес: вес, вес здесь — это доля каждого правила вычисления во всех правилах
- Ожидание: Ожидание, давая ожидание до оценки (0-100) в соответствии с каждым правилом оценки
- Оценка: результат, результирующее значение (0–100), вычисляемое после применения каждого правила оценки к набору данных.
Затем можно в основном определить процесс построения всей модели.Сначала выберите представление данных для оценки в наборе данных в соответствии с потребностями, а затем выберите необходимые показатели оценки. Следующим шагом является формулировка набора правил, формулировка соответствующих правил оценки качества данных в соответствии с выбранными показателями оценки и определение их соответствующих весов и ожиданий. Последним шагом является вычисление итогового балла по набору правил.
Для оценок, рассчитанных по N правилам набора данных, окончательно вычисляется средневзвешенное значение для получения абсолютного количественного значения оценки качества. Используя количественное значение для сравнения разницы с ожиданием, можно сделать вывод, лучше или хуже набор данных, чем ожидалось.
Выше приведена простая модель оценки, которая в настоящее время не используется в реальных сценариях.Конечно, точность этой модели не очень высока, и она не имеет дело с ошибками. Просто для представления, возможно, можно провести оценку качества в этом направлении.
Управление качеством данных
Управление качеством рабочего процесса данных
Поговорим об управлении качеством данных. Как упоминалось ранее, управление качеством включает в себя все аспекты рабочего процесса данных. Рабочий процесс данных можно разделить на следующие части: генерация данных, обработка, хранение, добыча и применение. Предпосылкой управления качеством является установление стандартов качества в каждом звене. К источникам данных относятся: данные, сгенерированные бизнес-системами, данные из внешних систем, введенные вручную данные и т. д. Данные собираются из этих источников, а затем обрабатываются по каналу данных (ETL, Extract-Transform-Load), а данные входит в хранилище данных или киоск данных. Затем бизнес-персонал, специалисты по данным, инженеры по данным и т. д. будут исследовать и анализировать данные на платформе данных. Этот процесс может происходить в хранилище данных или в изолированной программной среде данных. Наконец, выходные результаты исследования, анализа и извлечения данных проанализированы., будут выпущены в виде приложений данных, а конкретные формы включают в себя: отчеты по данным, порталы данных, OLAP, продукты данных, службы данных, интеллектуальные модели и т. д.
Надзор за качеством данных
В дополнение к установлению стандартов качества также требуется надзор и управление самими данными и рабочим процессом данных в системе.
Мониторинг систем данных в режиме реального времени, мониторинг рабочего состояния серверного программного и аппаратного обеспечения, производительности, дискового пространства, транзакций базы данных, блокировок, буферов, сеансов, резервных копий и ряда индикаторов в рабочей среде данных, реализация механизмов раннего предупреждения и мониторинг случаются какие-то нештатные ситуации.
Для регулярной проверки данных, помимо мониторинга системы данных, также необходима проверка данных: ежедневная проверка, выборочная проверка данных, комплексная проверка и т. д.
Система аудита также является важной мерой для обеспечения качества, особенно в отношении конфиденциальных данных и конфиденциальных операций. Создайте иерархическую систему проверки изменений данных, особенно для операций с большим влиянием или более высокими полномочиями. Создайте систему утверждения.Для считывания данных, если речь идет о конфиденциальных данных, при необходимости также требуется утверждение данных или десенсибилизация данных.
Управление жизненным циклом данных
Жизненный цикл данных начинается с планирования данных, а в середине находится процесс, включающий этапы генерации, обработки, развертывания, применения, мониторинга, архивирования и уничтожения, и это непрерывный цикл. С развитием бизнеса типы бизнес-данных и бизнес-спецификации системы постоянно меняются.Полное решение для управления жизненным циклом данных также должно включать оптимизацию и настройку системы в соответствии с фактической работой бизнес-системы, новыми типами бизнеса. и спецификации, а также технические усовершенствования.Настройте исходную стратегию миграции хранилища данных и метод доступа, чтобы удовлетворить потребности развития бизнес-системы и новые бизнес-спецификации. Целью управления жизненным циклом данных является принятие различных стратегий управления данными на разных этапах для снижения эксплуатационных расходов на управление данными, повышения качества данных и достижения конечной цели — максимизации ценности данных.
Суммировать
Качество данных является важной, но часто упускаемой из виду частью любой системы. Построение полной системы управления качеством данных является не только основной гарантией поддержки стабильной работы корпоративных систем, но и необходимым условием для осуществления предприятиями цифровой трансформации и инноваций.
Для получения более замечательных идей, пожалуйста, обратите внимание на публичный аккаунт WeChat: Stworker
WeChat Sina Weibo Evernote Pocket Instapaper Email LinkedIn Pinterest