Годовой отчет | Основные характеристики Hologres Инвентаризация на конец года

визуализация данных база данных

7 января хранилище данных в реальном времени Hologres от Alibaba Cloud и сообщество разработчиков совместно провели ежегодную конференцию по хранилищу данных в реальном времени. На пресс-конференции Го Бэй, старший технический эксперт Alibaba Cloud, начал с основных сценариев Alibaba и глубоко интерпретировал новые тенденции в развитии технологии хранилища данных в реальном времени: универсальное, онлайновое и гибкое. На пресс-конференции менеджер по продуктам Hologres Хейи представила ежегодные ключевые возможности Hologres в ответ на текущую новую тенденцию хранилищ данных, чтобы помочь предприятиям лучше создавать универсальные хранилища данных в реальном времени. ​

В этой статье будут обобщены ключевые функции Hologres с разных точек зрения, чтобы помочь пользователям лучше понять и использовать Hologres.

Возникло из бизнес-инноваций, непрерывного развития бизнеса

Прошло 6 лет с момента создания компании Hologres, которая впервые предложила концепцию гибридного обслуживания и аналитической обработки (HSAP) и постепенно превратилась в универсальное хранилище данных корпоративного уровня, которое не только обслуживает многие основные направления деятельности Alibaba Group. (например, Taobao, Tmall, 1688, Cainiao, Local Life, Dharma Institute и т. д.), они также продолжают экспортировать свои сервисные возможности в облако, помогая большему количеству отечественных и международных предприятий создавать хранилища данных корпоративного уровня в режиме реального времени. . На сегодняшний день услуги предоставляются синхронно в 13 регионах мира.

合一1.png

Новая итерация, ежегодный тяжёлый релиз

Highlight

За последние 21 год Hologres сосредоточился на возможностях движка и прошел итерацию трех основных версий.Следующее поколение продуктов также проходило внутреннее тестирование, и оно по-прежнему поддерживает быстрый итерационный ритм. Благодаря сосуществованию строк и столбцов, развертыванию высокой доступности, разделению чтения и записи, быстрой отработке отказа и другим возможностям стабильность служб данных была значительно улучшена, а сценарии бизнес-использования были обогащены: 1. Постоянное улучшение производительности: каждая основная версия продолжает оптимизировать производительность ядра, улучшая несколько уровней оптимизатора, механизма запросов и механизма хранения.В качестве примера можно взять результат теста 32-ядерного TPCH 100G: версия 1.1 имеет улучшение на 256 % по сравнению с к прошлогодней версии 0.8.Улучшение производительности (часть запроса), эффект улучшения значителен

2. Усилить возможность обслуживания с высокой степенью параллелизма: пропускная способность хранилища строк увеличена на 100 %, пропускная способность хранилища столбцов увеличена на 30 %, поддерживается сосуществование строк и столбцов, одни данные поддерживают несколько сценариев, хранилище столбцов обновлено. в формат AliORC, а степень сжатия выше, что значительно снижает затраты на хранение. ​

3. Сосредоточьтесь на развертывании с высокой доступностью на уровне предприятия и возможностях управления на уровне предприятия, а также улучшите возможности самообслуживания и обслуживания предприятия за счет выявления большего количества аспектов и более подробных наблюдаемых показателей.

合一2.png

Ниже приведено более детальное введение в ключевые функции.

Встроенная поддержка JSON

JSON в последнее время является приоритетной областью для Hologres, поскольку сбор данных становится все более и более гибким, а обработка данных — все более и более гибкой.В прошлом данные JSON, которые необходимо было расширить и сгладить, часто сохраняли исходную нестандартную структуру. Поэтому особенно важно, как поступать с бессхемными сценариями. ​

Традиционно JSON в качестве блока данных использует режим Schema on Read, который обеспечивает гибкость хранения, но ограничивает эффективность анализа.Для доступа к некоторым узлам в JSON необходимо прочитать всю структуру данных JSON, что очень неэффективно. Также трудно сжимать при хранении.

合一3.png

Hologres обновил метод хранения данных JSON. Он принимает формат хранения, аналогичный хранилищу столбцов в базовом хранилище, сопоставляет различные пути узлов в JSON с виртуальными столбцами и предоставляет встроенные возможности сжатия и индексирования хранилища столбцов. Добавление операторов доступа JSON значительно ускоряет эффективность фильтрации данных JSON и статистики. На уровне протокола он полностью совместим со спецификациями PG, поддерживает JSON, JSONB и другие типы, а также собственные операторы построения, доступа и обновления PG. Основываясь на этих инновационных возможностях, JSON стал типом данных, рекомендованным Hologres, который подходит для сценария анализа скрытых бревен.

Полная ссылка Binlog, управляемая событием

Подобно концепции Binlog в традиционной базе данных MySQL, в Hologres Binlog используется для записи записей об изменениях табличных данных в базе данных, таких как операции вставки/удаления/обновления. Используйте Hologres BInlog через Flink и JDBC, осуществляйте разработку всей связи между уровнями хранилища данных в режиме реального времени и сокращайте сквозную задержку обработки данных на основе иерархического управления. Типичные сценарии применения следующие:

  1. Сценарии репликации и синхронизации данных в реальном времени, типичным сценарием является преобразование таблицы, хранящейся в строках, в другую таблицу, хранящуюся в столбцах, в режиме реального времени. Хранение строк поддерживает контрольную точку и запись, хранилище столбцов поддерживает требования многомерного анализа, а логика синхронизации поддерживается Flink. Это типичное использование Hologres до V1.1. После того, как таблица сосуществования строк и столбцов будет поддерживаться в Hologres 1.1, одна таблица может соответствовать требованиям хранения как строк, так и столбцов, что устраняет необходимость в дополнительных накладных расходах по планированию.
  2. Драйвер полной ссылки для событий: Использование бинарных журналов Hologres через Flink, реализация разработки обработки, управляемой событиями, и выполнение операций обработки в реальном времени от ODS до DWD, от DWD до DWS и т. д.
  3. **Мониторинг изменений данных: **Отслеживайте изменения в данных в режиме реального времени, например, отслеживайте изменения в реальном времени в данных инвентаризации, конфиденциальных полей и т. д., а также запускайте сигналы тревоги.
  4. Данные синхронизируются между экземплярами: пользователи могут создавать несколько экземпляров Hologres, которые используются для обработки общедоступного уровня, обработки бизнес-доменов и т. д. Синхронизация данных в реальном времени может выполняться между различными экземплярами через Binlog, реализуя поток данных в реальном времени и совместное использование.

合一4.png

Интегрированное автономное хранилище данных в режиме реального времени Hologres+MaxCompute

MaxCompute — это масштабируемая система обработки больших данных Alibaba Cloud с проверенными технологиями и стабильными услугами. И Hologres, и MaxCompute используют механизм хранения Pangu с одной и той же базовой технологией. Hologres использует собственный векторизованный механизм запросов для ускорения запроса данных MaxCompute и реализует возможности ускорения запросов MaxCompute.Этот сценарий не требует переноса данных и импорта данных и может получать доступ к различным форматам файлов MaxCompute с высокой производительностью и полной совместимостью. между складами установлен быстрый канал для интерактивного анализа. В новой версии Hologres собственный векторный движок по умолчанию используется для прямого чтения MaxCompute, сокращая количество вызовов RPC между движками и меньшую сериализацию данных между движками Тот же движок способствует повторному использованию кэша, а производительность повышается на 30%. 80% .

合一5.png

Что важно в решении для автономной интеграции в режиме реального времени, так это упрощение обмена данными, даже без перемещения данных. Внешний запрос — это сценарий, который не требует перемещения данных. Однако, поскольку внешняя таблица не имеет индексов и оптимизации SSD, производительность запроса и возможности параллелизма ниже, чем у сценария внутренней таблицы. В сценариях, чувствительных к производительности, это по-прежнему рекомендуется синхронизировать данные из MaxCompute в Hologres.В работе оперативность синхронизации еще важнее. В настоящее время благодаря инновационной технологии хранения поддерживается двусторонняя синхронизация миллионов строк в секунду между MaxCompute и Hologres, что упрощает сценарии разработки и обновления данных. ​

Связь между MaxCompute и метаданными Hologres также является постоянной работой.В первые дни Hologres поддерживал пакетный импорт метаданных, который может импортировать все таблицы всего проекта одновременно, а также поддерживает пакетные обновления. В последнее время Hologres поддерживает автоматический импорт и обновление метаданных. При создании новой таблицы на стороне MaxCompute или изменении структуры таблицы нет необходимости вручную обновлять метаданные. Метаданные могут автоматически синхронизироваться с Hologres, что делает испытать легче. ​

В то же время, чтобы поддерживать более удобные и гибкие сценарии ускорения MaxCompute, Hologres предлагает новую форму обслуживания: общий кластер. В этом режиме пользователям не нужно развертывать экземпляры заранее, они используют бессерверный метод и взимают плату в соответствии с объемом сканирования данных запроса. Этот режим поддерживает только сценарии ускорения MaxComputeBI и не может создавать внутренние таблицы и индексы. Для тех, кто использовал ускорение запросов MaxCompute Lightning в прошлом. Пользователи могут плавно переключаться на этот общий кластер без перестройки таблиц или изменения протокола BI.Количество доступных подключений больше, чем у Lightning, и сервис более стабилен.

Ускорьте исследование озера данных

Традиционная архитектура озер и хранилищ по-прежнему относительно независима. Когда некоторые предприятия создают озера данных, это относительно сложно для управления данными и управления ими.По мере развития предприятия все больше и больше предприятий начинают изучать интеграцию озер и хранилищ. В этом году Hologres сосредоточилась на оптимизации сценария интеграции озера и хранилища, поддержке прямого доступа к данным OSS извне и обратного потока данных в OSS, поддержке интеграции DLF, ускорении исследования озера данных и облегчении интеграции озер и хранилищ.

Углубление сценариев анализа трафика

Анализ трафика — это сцена, которую Hologres продолжает расширять. В настоящее время он поддерживает высокопроизводительную библиотеку растровых изображений RoaringBitmap, которая может быстро вычислять UV с постоянной сложностью. широко используется в портретах пользователей, фильтрация тегов и другие типичные сценарии широко используются в рекламных сценариях Alimama.

合一6.png

В то же время Hologres также имеет встроенные функции, такие как анализ воронки, анализ удержания и подробные круги, Эти встроенные функции значительно упрощают работу по разработке и обеспечивают эффективность выполнения сложных операций.

Изоляция многозагрузочных ресурсов

Изоляция групп ресурсов — это средство для эффективной поддержки смешанных нагрузок. Hologres поддерживает дизайн групп с несколькими ресурсами в одном экземпляре. В этом дизайне общие вычислительные ресурсы разделены на несколько групп ресурсов, а разные группы ресурсов представляют определенные группы ЦП и ресурсов. . Ресурсы памяти и установить отношения привязки между пользователями и группами ресурсов. После привязки пользователи могут использовать только вычислительные ресурсы соответствующей группы ресурсов. Все несвязанные пользователи будут использовать группу ресурсов по умолчанию по умолчанию системы. В настоящее время ресурсы между группами ресурсов не используются совместно или вытесняются, и несколько пользователей в группе ресурсов совместно используют одну и ту же группу ресурсов.

合一7.png

В правой части рисунка выше показано разделение точки зрения пользователя. Экземпляр 256Core1024G разделен на 3 группы ресурсов. В разных сценариях приложений используются разные учетные записи. Например, группе ресурсов по умолчанию для анализа OLAP выделяется 50 %. , а на онлайн-проверку уходит 20% ресурсов, а на запись данных в реальном времени выделяется 30% ресурсов. Возможность изоляции групп ресурсов позволяет избежать проблемы, связанной с тем, что неверный запрос потребляет все ресурсы, а ресурсы можно распределять в соответствии с бизнес-приоритетами.

Развертывание высокой доступности

Изоляция группы ресурсов — это своего рода изоляция вычислительных ресурсов между различными пулами потоков в одном экземпляре, и она не может обеспечить изоляцию сбоев и 100% изоляцию чтения-записи. Таким образом, Hologres продолжает разрабатывать лучшие решения высокой доступности.В версии V1.1 он поддерживает решение для развертывания нескольких экземпляров общего хранилища. В этом решении основной экземпляр имеет полные возможности, данные можно читать и записывать, можно настраивать разрешения и системные параметры, в то время как подчиненный экземпляр находится в состоянии только для чтения, все изменения выполняются через основной экземпляр, а хранилище данных совместно используется инстансами, данные синхронизируются между инстансами асинхронно и в реальном времени с задержкой на уровне миллисекунд.

合一8.png

Сценарии применения:1. Разделение чтения и записи: это решение реализует функцию полного разделения чтения-записи и гарантирует SLA для различных бизнес-сценариев.В таких сценариях, как запись данных с высокой пропускной способностью, задания сложной архитектуры, OLAP, запросы AdHoc и онлайн-сервисы, нагрузка физически завершена.Изоляция , отсутствие дрожания запросов из-за операций записи.2. Мелкозернистое распределение ресурсов для нескольких типов нагрузки: главный экземпляр может быть настроен с несколькими подчиненными экземплярами, доступными только для чтения, и между экземплярами могут быть настроены различные спецификации в соответствии с условиями бизнеса, например, использование 256Core в качестве экземпляра для записи и обработки, 512Core в качестве экземпляра OLAP только для чтения, 128Core в качестве экземпляра. онлайн-экземпляр Serving и 32Core в качестве тестового экземпляра для разработки.

  1. Высокая доступность онлайн-сервисов: В любой системе бывают моменты нестабильности, повреждения диска, системные ошибки и т. д. В сценарии поддержки онлайн-сервисов высокой доступности необходимо поддерживать избыточные возможности высокой надежности на уровне системы. быть быстро переключен В резервной системе время переключения должно быть как можно короче, а статус данных должен быть последовательным. Режим развертывания нескольких подэкземпляров может обеспечить доступ к нескольким конечным точкам.При сбое экземпляра прикладной уровень может быстро переключиться на другие конечные точки, реализуя переключение системы с высокой доступностью и аварийным восстановлением.

Повышение наблюдаемости системы

Наблюдаемость системы постоянно визуализируется через HoloWeb, включая медленные запросы, планы выполнения, активные соединения и т. д., чтобы улучшить возможности самообслуживания и обслуживания предприятий:

  • Журнал медленных запросов: поддерживает меры диагностики, анализа и оптимизации для медленных или неудачных запросов в системе, такие как время выполнения, план и потребление ЦП, для улучшения возможностей самодиагностики.
  • Активные подключения: с помощью визуализации активных подключений определите состояние подключения, количество подключений и пользователей, чтобы проанализировать состояние подключения экземпляра и диагностировать работающий SQL.
  • План выполнения: с помощью различных методов визуального отображения запускается и анализируется запрос, операторы подробно интерпретируются, а предложения по оптимизации направляются, чтобы избежать слепой настройки, снизить порог настройки производительности и быстро достичь цели настройки производительности.

合一9.png

Обновление возможностей безопасности корпоративного уровня

Возможности безопасности корпоративного уровня были снова обновлены, поддерживая шифрование данных, контроль доступа, резервное копирование для аварийного восстановления и т. д.: 1) Шифрование данных:

  • На основе службы управления ключами KMS (служба управления ключами) данные шифруются и хранятся, а возможность статической защиты данных предоставляется для удовлетворения потребностей корпоративного контроля и соответствия требованиям безопасности.
  • Он легко подключается к MaxCompute, поддерживает ускоренное шифрование данных MaxCompute и делает шаг ближе к автономной интеграции в реальном времени.
  • Поддержите десенсибилизацию данных, подключитесь к зонтику защиты данных и улучшите конфиденциальность данных.

2) Контроль доступа

  • Поддержка белого списка IP-адресов для обеспечения более точного доступа к безопасности.
  • Подключитесь к ActionTrial для поддержки аудита поведения на уровне экземпляра.

3) резервное копирование для аварийного восстановления

  • Поддерживает аварийное восстановление в компьютерных залах в одном городе (собственное облако).
  • служба поддержкиАварийное восстановление, живем в разных местах, а также обеспечить разделение операций чтения и записи и высокий уровень параллелизма чтения, а также обеспечить высокую доступность чтения на основе нескольких экземпляров. Кроме того, можно выполнять горячее обновление версии и миграцию системы хранения.

合一10.png

Экологичность ПГ

Он поддерживает более богатые типы данных и более разнообразные функции расширения.В то же время он продолжает прилагать усилия для визуального анализа бизнес-аналитики, беспрепятственно подключает больше инструментов бизнес-аналитики, снижает порог обучения и дополнительно совместим с PostgreSQL.

Продолжайте фокусироваться на универсальном хранилище данных в режиме реального времени

В будущем Hologres будет по-прежнему уделять внимание надежности, эффективности, возможностям эксплуатации и обслуживания хранилищ данных в реальном времени и будет посвящена работе в режиме реального времени, One SQL и One Data, чтобы улучшить эксплуатацию и техническое обслуживание на уровне предприятия, сократить время разработки. пороговые значения и достичь корпоративного уровня. Конечная цель универсального хранилища данных в реальном времени. В частности, речь пойдет о следующих аспектах:

合一11.png

Real-Time

Упростите процесс разработки хранилища данных в реальном времени, поддержите режим извлечения, активно извлекайте данные из вышестоящего промежуточного программного обеспечения для сообщений и упрощайте процесс хранения данных. Разрабатывается возможность материализованного представления в реальном времени. Благодаря материализованному представлению в реальном времени пользователи могут описывать сложную логику обработки в качестве определения представления. Hologres обеспечивает синхронизацию в реальном времени между представлением и таблицей, выражает логика обработки данных через SQL, а также реализует наслоение данных в режиме реального времени и автоматизацию потока данных.

OneSQL

Улучшайте выразительные возможности Hologres SQL, поддерживайте несколько сценариев OLAP/Serving/AI и постоянно повышайте стабильность и эффективность. Непрерывно оптимизируйте интегрированный офлайн-опыт в режиме реального времени, чтобы еще больше сократить потребность в перемещении данных. Повысьте эффективность различных индексов и сжатия JSON. Он будет поддерживать возможности UDF, улучшит масштабируемость и предоставит пользователям больше возможностей для расширения. Гибкость вычислительных ресурсов также является ключевым направлением.

OneData

Дальнейшее подключение к системам хранения и метаданных, таким как DLF, MaxCompute и EMR, позволяет избежать разрозненности данных и поддерживать интегрированные решения для озер и хранилищ. Разрабатывается холодная и горячая многоуровневость хранения, внедряются HDD на базе SSD, что позволяет значительно снизить затраты на хранение для пользователей.

Ops

Последним является O&M, который по-прежнему будет наблюдаемым, регулируемым и оптимизированным в системе, чтобы избежать вызовов системного черного ящика, поддерживать горячее обновление системы и расширение емкости, а также снижать риски O&M. Это значительно улучшит возможности управления данными и будет сотрудничать с DataWorks для поддержки большего анализа и диагностики метаданных.

Приложение: Конференция скачать PPT

Для получения материалов PPT этой конференции посетите группу пользователей DingTalk, чтобы получить