Расшифровка новых возможностей HUAWEI CLOUD FusionInsight MRS: одна архитектура и три озера

облачный носитель

​​​​[Рекомендуемая тема в этом выпуске] Обязательная к прочтению практика IoT: эксперты HUAWEI CLOUD подробно объясняют принципы разработки и внедрения модулей LiteOS.

Реферат: Чен Сян, менеджер по продукту HUAWEI CLOUD FusionInsight MRS, выступил с программной речью на тему «HUAWEI CLOUD FusionInsight MRS, три озера данных с одной архитектурой» на «Особом дне HUAWEI CLOUD TechWave Cloud Native 2.0». Эра интеллектуальных данных Тенденция развития озера данных, инновационная технология облачных озер данных MRS реализует архитектуру для создания трех озер данных в автономном режиме, в режиме реального времени и логики, а также успешных случаях в деловой практике и т. д.

Эта статья опубликована в сообществе HUAWEI CLOUD.«HUAWEI CLOUD FusionInsight MRS Cloud Native Data Lake, одна архитектура «Три озера», расшифровка новых функций компонента HUAWEI CLOUD FusionInsight MRS», автор оригинала: ЭТО старая шлифовка.

20 мая менеджер по продукту HUAWEI CLOUD FusionInsight MRS Чен Сян выступил с программной речью «HUAWEI CLOUD FusionInsight MRS: одна архитектура реализует три озера данных» на «Особом дне HUAWEI CLOUD TechWave Cloud Native 2.0», поделившись информацией об интеллектуальных данных. Тенденции развития озер данных, инновационная технология облачных озер данных MRS для реализации архитектуры для создания автономных, работающих в реальном времени и логических озер данных, а также успешные примеры из деловой практики и т. д.

Вступая в эру интеллектуальных данных, десять основных отраслевых консенсусов по созданию озера данных

После десятилетий быстрого развития технология обработки больших данных становится все более и более зрелой, и существует множество технологий, связанных с хранилищами данных и озерами данных.Интеграция хранилищ стала предпочтительной архитектурой для интеллектуальных озер данных. Для решения новых задач, связанных с технологиями больших данных в эпоху интеллектуальных данных, облачное озеро данных HUAWEI CLOUD FusionInsight MRS было полностью обновлено, в него вошли популярные компоненты, такие как Hudi и ClickHouse, а также усилен механизм виртуализации собственной разработки HetuEngine. , а также добавление возможностей обработки синхронизации IoTDB для расширения границ приложений с поддержкой данных.

HUAWEI CLOUD FusionInsight MRS Cloud Native Data Lake

Облачное озеро данных HUAWEI CLOUD FusionInsight MRS предоставляет государственным и корпоративным клиентам облачное, облачное решение для озера данных и создает автономное логическое озеро данных в режиме реального времени с устойчивой архитектурой для поддержки реального времени. данные государственных и корпоративных клиентов в реальном времени Сценарии применения больших данных, такие как анализ, автономный анализ, интерактивный запрос, поиск в реальном времени, мультимодальный анализ, хранилище данных, доступ к данным и управление, позволяющие государственным и корпоративным клиентам эффективно использовать данные и упростите использование данных, помогая государственным и корпоративным клиентам достичь одного предприятия и одного озера, одного города и одного озера, более точной бизнес-аналитики и более быстрой реализации ценности.

  • ** Автономное озеро данных: ** Предоставьте несколько вычислительных механизмов, таких как интерактивные, BI, AI и т. д., и используйте OBS для реализации разделения хранения и вычислений, делая архитектуру облачного озера данных более гибкой. Он поддерживает сверхбольшой масштаб — более 20 000 узлов в одном кластере и может поддерживать более 100 000 узлов за счет объединения кластеров. Последовательное обновление поддерживается для обеспечения непрерывного обновления ключевых служб.

  • **Озеро данных в реальном времени: **Hudi поддерживает инкрементный ввод ACID-данных в реальном времени в озеро, OLAP-анализ ClickHouse на миллисекундном уровне и т. д. для создания возможностей обработки обновлений в реальном времени, сокращая время поставки с от Т+1 до Т+0.

  • **Логическое озеро данных: **HetuEngine обеспечивает совместный анализ между озерами, хранилищами и облаками, реализует интеграцию озер и хранилищ, сокращает миграцию данных на 80 % и повышает эффективность совместного анализа в 50 раз. .

Единая архитектура с новыми функциями Three Lakes, охватывающая весь процесс анализа данных

  • Hudi: инкрементный вход в озеро в режиме реального времени, обеспечивающий быстрый ввод данных в озеро, простота разработки, высокая производительность и более эффективное использование ресурсов.

Традиционные озера данных не поддерживают обновление данных, в результате чего для данных используется автономный режим обработки T+1, который не может соответствовать гибким и изменчивым бизнес-требованиям.Чтобы решить проблему своевременности данных, в облачные данные FusionInsightMRS вводится HUDI. озеро HUAWEI CLOUD.

Hudi может поддерживать обновление данных, удаление данных и гарантию ACID, чтобы обеспечить ввод данных в озеро в режиме реального времени для операций обновления. Он предоставляет различные представления, в том числе оптимизированные для чтения представления, добавочные представления и представления в реальном времени.Он может предоставлять различные представления для различных аналитических приложений.На основе этих технологий модели хранения данных, такие как добавочные таблицы, таблицы-молнии и зеркальные таблицы могут быть легко реализованы. После введения Худи есть четыре существенных эффекта:

1. Более быстрая своевременность данных: в бизнес-системе ввод данных на минутном уровне в озеро осуществляется через систему CDC, а своевременность данных составляет от T+1 ​​до T+0.

2. Более высокая производительность обработки: в случае удаления и обновления данных используется традиционный метод обновления Hive, а обработка только одной строки данных также может потребовать обработки всей таблицы или, по крайней мере, всего раздела.Внедрение Hudi улучшает эффективность обработки на 10%. раз +.

3. Более простая разработка: для разработчиков традиционный ввод данных в озеро не поддерживает обновление или удаление. Разработчикам необходимо создать временную таблицу, обработать данные и затем перезаписать их. Для одной и той же задачи может потребоваться много кода написано, чтобы завершить его.По благословению Худи, выполнение операции обновления данных так же просто, как использование базы данных, и ее можно выполнить с помощью одного оператора.

4. Более высокая загрузка ресурсов: традиционный режим T+1 заключается не в том, чтобы выполнять задачи 24 часа в сутки, а в том, чтобы выполнять пакетную обработку ночью и выдавать отчеты утром, однако соотношение основано на вычислительной нагрузке во время пиковый период, что приводит к недостаточному использованию ресурсов в течение дня.После внедрения Hudi данные собираются в озеро в режиме реального времени, а работа по обработке озера распределяется в течение дня.По сути, пик снижается общее потребление ресурсов и сглаживаются низкие пики.

Финансовый заказчик строит озеро данных на базе Hudi.Задержка ввода данных снижена до минут, коэффициент использования ресурсов в течение дня увеличен в 2 раза, а эффективность обработки данных увеличена на 50%.Разработку могут завершить разработчики с одно заявление, упрощающее разработку трудности.

  • ClickHouse: механизм OLAP в реальном времени, обеспечивающий полное самообслуживание и экономичный анализ отчетов в реальном времени.

Из-за ограниченной вычислительной мощности традиционных механизмов OLAP данные обычно организуются в соответствии с темами или темами перед стыковкой с инструментами BI, что приводит к разрыву связи между пользователями BI и инженерами данных, которые предоставляют данные. Например, у пользователя BI появилось новое требование, а требуемых данных нет в тематическом маркете.Требование нужно передать дата-инженеру для разработки соответствующей ETL-задачи.Этот процесс часто требует межведомственной координации, с длительным периодом времени и низкой выгодой от сотрудничества.

Теперь облачное озеро данных HUAWEI CLOUD FusionInsight MRS может загружать все подробные данные в ClickHouse в виде таблиц большой ширины, а пользователи бизнес-аналитики могут выполнять самостоятельный анализ на основе таблиц большой ширины ClickHouse, требуя меньше специалистов по данным и даже перед лицом большинства Когда требуются новые требования, нет необходимости повторно поставлять данные, а эффективность разработки и скорость онлайн-отчетов BI будут значительно улучшены. При этом анализ данных ClickHouse в одной таблице может достигать миллисекундного уровня.

Внедрение BI самообслуживания на базе ClickHouse также дало хорошие результаты во внутренней практике Huawei. Озеро данных Huawei Group HIS изначально было смоделировано на основе традиционного механизма OLAP, но из-за ограниченной эффективности разработки за несколько лет были запущены десятки отчетов. После внедрения Clickhouse за три месяца было разработано и запущено более 400 отчетов, а эффективность бизнеса в онлайне выросла в 50 раз. В настоящее время общий масштаб использования внутреннего ClickHouse Huawei достиг более 2000 узлов, объем данных достиг 10+ ПБ, а ежедневный объем дополнительных данных достиг 100 ТБ.

  • HetuEngine: механизм виртуализации данных, преодолевающий географические ограничения и разрушающий «стены» данных

В связи с потребностями развития предприятий и цифровой трансформации бизнес предприятий становится все более и более сложным, а спрос на инновации становится все выше и выше. Одному отделу сложно удовлетворить изменяющиеся потребности бизнеса, на предприятии может быть одновременно несколько озер, несколько складов, несколько систем, однако в традиционной схеме построения дымохода нет прямого взаимосвязь между озерами и хранилищами, а также между несколькими механизмами.Взаимодействие необходимо перемещать туда и обратно через данные ETL, что приводит к длинным каналам потока данных, многочисленным избыточным данным и островам данных. Множественная избыточность данных в системе также затрудняет обеспечение согласованности и надежности данных.

Чтобы упростить использование данных, совместную работу между озерами и решить проблему фрагментации данных в озерах и хранилищах, Huawei запустила HetuEngine, механизм виртуализации данных. - возможности облачного и мультиоблачного коллаборативного анализа.Географическое ограничение ломает «стену» данных, эффективность кросс-лейк-коллаборативного анализа увеличивается в 50 раз, кросс-складской коллаборативный анализ сокращает миграцию данных и синхронизацию между системами на 80% , а производительность анализа повышается с минут до секунд.

Внедрив механизм виртуализации данных HetuEngine, финансовый банк улучшил свои возможности параллелизма с точки зрения запросов и анализа озера данных. оптимизировано до 8 секунд; с точки зрения совместного анализа между озерами и хранилищами барьеры данных между озерами и хранилищами данных преодолеваются с помощью HetuEngine, а производительность совместного анализа озер и хранилищ была улучшена с минут до секунд, при этом сокращается объем данных. миграция и синхронизация между системами на 80 %, что значительно повышает эффективность управления данными.

  • IoTDB: база данных временных рядов, совместная работа на стороне облачных устройств для простого создания киосков данных временных рядов

Данные временных рядов имеют две характеристики: они обрабатываются на терминале, периферии и в облаке, и их не нужно обновлять после сбора данных временных рядов. В традиционном решении для обработки временных рядов используются разные технологические стеки на конечном этапе, на периферии и в облаке, а разнородные технологические стеки неизбежно усложняют обработку данных. База данных временных рядов IoTDB (также известная как механизм временных рядов), разработанная Университетом Цинхуа, использует унифицированный формат файлов данных временных рядов TsFile для реализации данных, совместимых со всеми сценариями. Huawei поддерживает тесное сотрудничество с Университетом Цинхуа.Последняя выпущенная версия кластера IoTDB — это версия, разработанная Huawei и Университетом Цинхуа.

В Шанхае, Чэнду, Чунцине и других городах IoTDB использовалась для управления данными мониторинга метро.Первоначально для 144 поездов требовалось 9 серверов, но теперь только один экземпляр IoTDB может соответствовать требованиям, а задержка выборки точек измерения также была уменьшена. с исходных 500 мс до 200 мс с ежедневным увеличением на 414 миллиардов точек данных для управления, что значительно улучшает использование ресурсов.

Эпилог

В настоящее время облачное озеро данных HUAWEI CLOUD FusionInsight MRS совместно с более чем 800 экологическими партнерами обслуживает более 3000 государственных и корпоративных клиентов и широко используется в коммунальных службах, финансах, операторах, энергетике, медицине, производстве, транспорте и других отраслях.

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~