Резюме:Что такое озеро данных? Что оно делает? Сегодня технические специалисты HUAWEI CLOUD начнут с теории, отделят проблему от кокона и объяснят ее с технической точки зрения.
Что такое озеро данных
Если вам нужно определить озеро данных, вы можете определить его следующим образом:Озеро данных — это большое хранилище, в котором хранятся различные необработанные данные предприятия, к которым можно получить доступ, обработать, проанализировать и передать.
Озеро данных получает необработанные данные из нескольких источников данных на предприятии, и для разных целей одни и те же необработанные данные могут также иметь несколько копий данных, соответствующих определенному формату внутренней модели. Таким образом, данные, обрабатываемые в озере данных, могут представлять собой информацию любого типа, от структурированных данных до полностью неструктурированных данных.
Предприятия возлагают большие надежды на озера данных, надеясь, что они могут помочь пользователям быстро получить полезную информацию и могут использовать эту информацию для анализа данных и алгоритмов машинного обучения для получения информации, относящейся к работе предприятия.
Отношения между озером данных и предприятием
Озера данных могут предоставить предприятиям различные возможности, например:Централизованное управление данными, Кроме того, предприятия могут задействовать множество возможностей, которых у них раньше не было.
Кроме того, озеро данных сочетает в себе передовую науку о данных и технологии машинного обучения.Помогайте предприятиям создавать более оптимизированные операционные модели,Он также может предоставить предприятиям другие возможности, такие как прогнозный анализ, модели рекомендаций и т. д., которые могут стимулировать последующий рост возможностей предприятия.
Однако в корпоративных данных скрыто множество возможностей, однако до тех пор, пока важные данные не смогут быть использованы людьми с пониманием бизнес-данных, люди не смогут использовать их для повышения эффективности бизнеса предприятий.
Как озера данных могут помочь бизнесу
В течение долгого времени предприятия пытались найти единую модель для представления всех субъектов предприятия. Эта задача чрезвычайно сложна по ряду причин, некоторые из которых перечислены ниже:
1. Сущность может иметь несколько представлений на предприятии, поэтому может не быть полной модели для унифицированного представления сущности.
2. Различные корпоративные приложения могут обрабатывать сущности на основе конкретных бизнес-целей, что означает, что определенные корпоративные процессы принимаются или исключаются из обработки сущностей.
3. Различные приложения могут использовать разные шаблоны доступа и структуры хранения для каждого объекта.
Эти проблемы преследуют предприятия в течение многих лет и препятствуют стандартизации бизнес-процессов, определений услуг и наименования терминологии.
С точки зрения озера данных мы смотрим на это по-другому.В озере данных неявно реализуется более совершенная унифицированная модель данных, не опасаясь существенного влияния на бизнес-программы.Эти бизнес-процедуры являются «экспертами», которые решают конкретные бизнес-задачи. Озеро данных представляет объект как можно более «полным» на основе полного объема данных, полученных из всех систем, связанных с владельцем объекта.
Поскольку озера данных лучше и полнее с точки зрения представления сущностей, они действительно оказали большую помощь в обработке корпоративных данных и управлении ими, позволяя предприятиям лучше понимать рост предприятия и помогая предприятиям достигать своих бизнес-целей.
Преимущества озер данных
Предприятия будут генерировать огромные объемы данных в своих многочисленных бизнес-системах.По мере увеличения размера предприятия им также необходимо более разумно обрабатывать эти данные в нескольких системах.
Одной из основных стратегий является использование модели одной предметной области, которая точно описывает данные и представляет ту часть данных, которая наиболее ценна для бизнеса в целом.Эти данные относятся к вышеупомянутым корпоративным данным.
Предприятия с четко определенными корпоративными данными, безусловно, имеют какой-то способ управления данными, поэтому изменения в определении корпоративных данных согласуются, и внутри предприятия ясно, как системы обмениваются этой информацией.
В этом случае система делится навладелец данных(владелец данных) ипотребитель данных(потребитель данных). Для корпоративных данных должен быть соответствующий владелец.Владелец определяет, как данные будут получены другими системами-потребителями, а система-потребитель играет роль потребителей.
Когда у предприятия есть четкое определение своих данных и систем, оно может использовать большой объем корпоративной информации с помощью этого механизма. Общей стратегией реализации этого механизма является предоставление унифицированной модели корпоративных данных путем создания озера данных на уровне предприятия.В этом механизме озеро данных отвечает за сбор данных, обработку данных, анализ данных и предоставление данных потребительским системам.
Озеро данных может помочь предприятиям следующими способами:
1. Внедрить управление данными и родословную данных.
2. Реализуйте бизнес-аналитику, применяя технологии машинного обучения и искусственного интеллекта.
3. Прогностическая аналитика, например механизмы рекомендаций для предметной области.
4. Отслеживание информации и обеспечение согласованности.
5. Создайте новые измерения данных на основе исторического анализа.
6. Наличие централизованного центра обработки данных, в котором могут храниться все корпоративные данные, способствует реализации службы данных, оптимизированной для передачи данных.
7. Помогает организациям или предприятиям принимать более гибкие решения о развитии бизнеса.
В этом разделе мы обсудим, какими возможностями должно обладать озеро данных. В дальнейшем мы обсудим и прокомментируем, как работает озеро данных и как понять его рабочий механизм.
Как работают озера данных
Чтобы точно понять, какие преимущества озеро данных может принести предприятию, особенно важно понять, как работает озеро данных и какие компоненты необходимы для создания полнофункционального озера данных. Прежде чем углубляться в детали архитектуры озера данных, давайте сначала разберемся с историей озера данных.жизненный цикл данных.
На верхнем уровне жизненный цикл данных в озере данных показан на рисунке.
Описанный выше жизненный цикл можно также назвать различными стадиями данных в озере данных. Данные и методы анализа, необходимые для каждого этапа, также различаются. Обработку и анализ данных можнопартия(пакетный) метод, вы также можете нажатьпочти в реальном времени(близкий к реальному времени) метод.
Реализация озера данных должна поддерживать оба метода обработки, поскольку разные методы обработки служат разным сценариям.Выбор метода обработки (пакетная обработка или обработка в режиме, близком к реальному времени) также зависит от объема вычислений для обработки данных или задач анализа, поскольку многие сложные расчеты не могут быть выполнены в режиме обработки, близком к реальному времени, а в некоторых случаях более длительная обработка. время не является приемлемым циклом.
Точно так же выбор системы хранения также зависит от требований к доступу к данным. Например, если вы хотите хранить данные так, чтобы к ним можно было получить доступ через SQL-запросы, выбранная вами система хранения должна поддерживать интерфейс SQL.
Если для доступа к данным требуется представление данных, оно предполагает хранение данных в соответствующей форме, то есть данные могут предоставляться извне в виде представления и обеспечивать удобную управляемость и доступность.
В последнее время все более важной тенденцией является предоставление данных через сервисы, что предполагает внешнее предоставление данных на упрощенном сервисном уровне.Каждая открытая служба должна точно описывать функцию службы и предоставлять данные внешнему миру. Этот шаблон также поддерживает интеграцию данных на основе служб, чтобы другие системы могли использовать данные, предоставляемые службами данных.
По мере того как данные перетекают из точки сбора в озеро данных, их метаданные фиксируются и управляются с точки зрения прослеживаемости данных, происхождения данных и безопасности данных на основе конфиденциальности данных в их жизненном цикле.
Происхождение данных определяется как жизненный цикл данных, включая их происхождение и то, как они перемещаются во времени. Он описывает, как данные изменились на различных этапах обработки, помогает обеспечить наглядность конвейера анализа данных и упрощает атрибуцию ошибок. Прослеживаемость — это возможность проверить историю, местонахождение или применение элемента данных путем идентификации записей. --Википедия
Разница между озером данных и хранилищем данных
Во многих случаях озеро данных считается эквивалентом хранилища данных. На самом деле озера данных и хранилища данных представляют разные цели, которых хотят достичь компании.
Основные различия между ними показаны в таблице ниже.
Из графика,Разница между озером данных и хранилищем данных очевидна.Однако на предприятии их роли дополняют друг друга.Озеро данных не следует рассматривать как замену хранилища данных, в конце концов, роли у них очень разные.
Как создать озеро данных
У разных организаций разные предпочтения и, следовательно, разные способы создания озер данных. Метод построения связан с такими факторами, как бизнес, поток процессов и существующие системы.
Простая реализация озера данных почти эквивалентна определению центрального источника данных, который все системы могут использовать для удовлетворения всех потребностей в данных. Хотя этот метод может быть простым и экономичным, он может быть не очень практичным по следующим причинам:
1. Этот подход будет работать только в том случае, если эти организации начнут создавать свои информационные системы заново.
2. Такой подход не решает проблем, связанных с существующими системами.
3. Даже если организация решит построить озеро данных таким образом, в ней отсутствует четкая ответственность и разделение интересов.
4. Такие системы обычно пытаются выполнять всю работу сразу, но в конечном итоге разваливаются по мере увеличения требований к транзакциям, анализу и обработке данных.
Лучшей стратегией для создания озера данных является рассмотрение предприятия и его информационных систем в целом, классификация отношений владения данными и определение единой модели предприятия.
Хотя этот подход может создавать проблемы, связанные с процессами, и может потребовать больше усилий для определения элементов системы, он по-прежнему обеспечивает необходимую гибкость, контроль и четкое определение данных и взаимодействие между различными системными объектами на предприятии.
Такие озера данных также могут иметь независимые механизмы для сбора, обработки, анализа данных и предоставления данных потребительским приложениям.
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~