Сотни миллионов фрагментов данных, как запросить и проанализировать просто и эффективно?

Большие данные
Резюме:Во время акции 618 Сяо Чжан столкнулся с непростой задачей: ему нужно было провести совместный анализ доходов отдела электронной коммерции компании и данных о работе офлайн-магазина за последнюю неделю.

Какие проблемы с данными это создаст?

  • Остров данных: данные отдела электронной коммерции хранятся на складе А, а данные об операционных доходах магазина — на складе Б. Как легко провести совместный анализ нескольких складов?
  • Объем данных на уровне PB: несколько платформ электронной коммерции + офлайн-магазины по всей стране будут генерировать данные на уровне TB каждый день, а годовой объем данных достигнет уровня PB!

Он впервые связался с техническим директором группы, надеясь экспортировать ему данные каждого отдела в течение одного дня.

В это время у технического директора проблемы:

Существующий пул ресурсов компании может свободно обрабатывать объем данных на уровне терабайт, в то время как объем данных, необходимых Сяо Чжану, по приблизительным оценкам, достигает уровня петабайт, что намного превышает возможности существующего пула ресурсов компании и может быть экспортировано только за плату. времени; общие сценарии расширяют пул ресурсов компании, а общая стоимость слишком высока.

Столкнувшись со сложными проблемами, с которыми столкнулся Сяо Чжан, Юньхуху порекомендовал артефакт запроса и анализа больших данных Huawei Cloud — сервис Data Lake Discovery (DLI); DLI может использовать совместный запрос объема данных на уровне EB, только каждый CU. Это стоит 0,35 юаня / час. (1CU = 1Core4G Mem), а 1CU стоит всего 150 юаней в месяц.


Data Lake Discovery (DLI) Service 2.0 — это бессерверная служба обработки и анализа больших данных, полностью совместимая с экосистемами Apache Spark и Apache Flink.Пользователи могут запрашивать и анализировать различные разнородные источники данных с помощью стандартного SQL или программ.

Как DLI решает проблему Сяо Чжана?

Сервисная архитектура DLI — бессерверная

DLI — это бессерверная служба запросов и анализа больших данных, преимуществами которой являются:

(1) Оплата по факту использования: реальная плата зависит от объема использования (объем сканирования/CU), и плата не взимается, когда задание не выполняется.

(2) Автоматическое расширение и сокращение емкости: в соответствии с бизнес-нагрузкой вычислительные ресурсы оцениваются и автоматически расширяются и сокращаются.

Бессерверная архитектура DLI может легко решить проблемы небольшой стоимости, нехватки ресурсов и временных потребностей бизнеса.

1. Основной движок DLI — Spark+Flink

Spark — это унифицированный механизм анализа для крупномасштабной обработки данных, ориентированный на анализ вычислений запросов. Основываясь на Spark с открытым исходным кодом, DLI провел большую оптимизацию производительности и преобразование сервиса.Он не только совместим с экосистемой и интерфейсом Apache Spark, но также имеет повышение производительности в 2,5 раза по сравнению с открытым исходным кодом. В то же время DLI также предоставляет механизм Flink для обработки в реальном времени.

2. Козырная функция DLI — анализ перекрестных источников

DLI поддерживает несколько облачных сервисов в облаке, самостоятельно созданные базы данных и автономные базы данных, а также может напрямую выполнять кросс-базовый анализ нескольких источников данных и создавать единое представление о предприятии.

Сяо Чжан одновременно подключает автономный склад A и склад B к DLI и может напрямую выполнять совместный запрос в DLI. Это позволяет избежать процесса переноса данных из двух хранилищ и последующего повторного создания хранилищ для совместного запроса, а также упрощает обработку запросов между базами данных.

Дополнительные преимущества услуг Data Lake Discovery (DLI)

  1. Работа на чистом SQL: предоставляет стандартный интерфейс SQL, пользователи могут запрашивать и анализировать большие объемы данных только с помощью SQL.
  2. Разделение хранилища и вычислений. Разделение хранилища и вычислений, отдельные приложения и выставление счетов позволяют снизить затраты и повысить эффективность использования ресурсов.
  3. Мультиарендность на уровне предприятия: поддерживает изоляцию вычислительных ресурсов арендаторами и контролирует разрешения данных для очередей и заданий, помогая предприятиям реализовать обмен данными между отделами и управление разрешениями.
  4. Бесплатная эксплуатация и обслуживание, высокая доступность. Пользователям не нужно разбираться в базовой эксплуатации и обслуживании, обновлении, высокой доступности в разных зонах доступности и активно-активных в разных зонах доступности.

Сценарии приложений для служб Data Lake Discovery (DLI)

1. Анализ базы данных + DLI 2.0: создание хранилища одним щелчком мыши, чтобы сохранить простоту использования базы данных.

Болевые точки:

(1) Многие базы данных не могут выполнять полный анализ

(2) Сложные отношения базы данных не могут быть запрошены

(3) Влияние на другие онлайн-сервисы данных

решение:

Анализ запросов к большим данным можно выполнять только с помощью стандартного SQL.

2. Точный маркетинг + DLI 2.0: интеллектуальные рекомендации по электронной коммерции, кросс-база данных и запрос массивных данных из разных источников за считанные секунды

Болевые точки:

(1) Как объединить анализ, когда источников данных слишком много

(2) Интеллектуальная рекомендация должна быть реализована в короткие сроки

решение:

Возможность использования перекрестных источников DLI для простого устранения разрозненности данных. Теперь поддерживаются 10 типов источников данных и автономно созданные данные.

3. Анализ логов + DLI 2.0: обязательный сценарий для компаний, а стоимость биллинга ниже

Болевые точки:

(1) Промежуток времени анализа журнала большой

(2) Высокий коэффициент использования простаивающих ресурсов и низкий коэффициент использования

решение:

DLI оплачивается по объему, а один CU стоит всего 0,35 юаня в час.

4. Контроль рисков в режиме реального времени + DLI 2.0: сценарии в режиме реального времени, такие как финансы, эксплуатация и техническое обслуживание, снижают вероятность возникновения рисковых событий.

Болевые точки:

(1) Обновление данных происходит несвоевременно, и события риска происходят часто

(2) Необходимо глубоко понимать фоновую архитектуру Flink для анализа данных в реальном времени.

решение:

Система управления рисками предъявляет высокие требования к производительности в режиме реального времени, DLI использует высокопроизводительные вычислительные ресурсы, а один ЦП может обрабатывать от 1000 до 20 000 сообщений в секунду.

Бессерверная служба больших данных — это форма, ориентированная на будущее. По мере того, как текущие проблемы будут решаться одна за другой, ее доля в анализе больших данных будет с каждым годом определенно увеличиваться. Это действительно превращает анализ больших данных в инструмент, который каждое предприятие может использовать одновременно с водой и электричеством. Служба HUAWEI CLOUD Data Lake Discovery (DLI) может помочь предприятиям легко выполнять пакетную и потоковую обработку разнородных источников данных, а также анализировать и исследовать ценность данных.

Выучить больше,Вы можете войти в сервисный центр HUAWEI CLOUD Data Lake Discovery (DLI)


Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~