Резюме:Во время акции 618 Сяо Чжан столкнулся с непростой задачей: ему нужно было провести совместный анализ доходов отдела электронной коммерции компании и данных о работе офлайн-магазина за последнюю неделю.
Какие проблемы с данными это создаст?
- Остров данных: данные отдела электронной коммерции хранятся на складе А, а данные об операционных доходах магазина — на складе Б. Как легко провести совместный анализ нескольких складов?
- Объем данных на уровне PB: несколько платформ электронной коммерции + офлайн-магазины по всей стране будут генерировать данные на уровне TB каждый день, а годовой объем данных достигнет уровня PB!
Он впервые связался с техническим директором группы, надеясь экспортировать ему данные каждого отдела в течение одного дня.
В это время у технического директора проблемы:
Существующий пул ресурсов компании может свободно обрабатывать объем данных на уровне терабайт, в то время как объем данных, необходимых Сяо Чжану, по приблизительным оценкам, достигает уровня петабайт, что намного превышает возможности существующего пула ресурсов компании и может быть экспортировано только за плату. времени; общие сценарии расширяют пул ресурсов компании, а общая стоимость слишком высока.
Столкнувшись со сложными проблемами, с которыми столкнулся Сяо Чжан, Юньхуху порекомендовал артефакт запроса и анализа больших данных Huawei Cloud — сервис Data Lake Discovery (DLI); DLI может использовать совместный запрос объема данных на уровне EB, только каждый CU. Это стоит 0,35 юаня / час. (1CU = 1Core4G Mem), а 1CU стоит всего 150 юаней в месяц.
Data Lake Discovery (DLI) Service 2.0 — это бессерверная служба обработки и анализа больших данных, полностью совместимая с экосистемами Apache Spark и Apache Flink.Пользователи могут запрашивать и анализировать различные разнородные источники данных с помощью стандартного SQL или программ.
Как DLI решает проблему Сяо Чжана?
Сервисная архитектура DLI — бессерверная
DLI — это бессерверная служба запросов и анализа больших данных, преимуществами которой являются:
(1) Оплата по факту использования: реальная плата зависит от объема использования (объем сканирования/CU), и плата не взимается, когда задание не выполняется.
(2) Автоматическое расширение и сокращение емкости: в соответствии с бизнес-нагрузкой вычислительные ресурсы оцениваются и автоматически расширяются и сокращаются.
Бессерверная архитектура DLI может легко решить проблемы небольшой стоимости, нехватки ресурсов и временных потребностей бизнеса.
1. Основной движок DLI — Spark+Flink
Spark — это унифицированный механизм анализа для крупномасштабной обработки данных, ориентированный на анализ вычислений запросов. Основываясь на Spark с открытым исходным кодом, DLI провел большую оптимизацию производительности и преобразование сервиса.Он не только совместим с экосистемой и интерфейсом Apache Spark, но также имеет повышение производительности в 2,5 раза по сравнению с открытым исходным кодом. В то же время DLI также предоставляет механизм Flink для обработки в реальном времени.
2. Козырная функция DLI — анализ перекрестных источников
DLI поддерживает несколько облачных сервисов в облаке, самостоятельно созданные базы данных и автономные базы данных, а также может напрямую выполнять кросс-базовый анализ нескольких источников данных и создавать единое представление о предприятии.
Сяо Чжан одновременно подключает автономный склад A и склад B к DLI и может напрямую выполнять совместный запрос в DLI. Это позволяет избежать процесса переноса данных из двух хранилищ и последующего повторного создания хранилищ для совместного запроса, а также упрощает обработку запросов между базами данных.
Дополнительные преимущества услуг Data Lake Discovery (DLI)
- Работа на чистом SQL: предоставляет стандартный интерфейс SQL, пользователи могут запрашивать и анализировать большие объемы данных только с помощью SQL.
- Разделение хранилища и вычислений. Разделение хранилища и вычислений, отдельные приложения и выставление счетов позволяют снизить затраты и повысить эффективность использования ресурсов.
- Мультиарендность на уровне предприятия: поддерживает изоляцию вычислительных ресурсов арендаторами и контролирует разрешения данных для очередей и заданий, помогая предприятиям реализовать обмен данными между отделами и управление разрешениями.
- Бесплатная эксплуатация и обслуживание, высокая доступность. Пользователям не нужно разбираться в базовой эксплуатации и обслуживании, обновлении, высокой доступности в разных зонах доступности и активно-активных в разных зонах доступности.
Сценарии приложений для служб Data Lake Discovery (DLI)
1. Анализ базы данных + DLI 2.0: создание хранилища одним щелчком мыши, чтобы сохранить простоту использования базы данных.
Болевые точки:
(1) Многие базы данных не могут выполнять полный анализ
(2) Сложные отношения базы данных не могут быть запрошены
(3) Влияние на другие онлайн-сервисы данных
решение:
Анализ запросов к большим данным можно выполнять только с помощью стандартного SQL.
2. Точный маркетинг + DLI 2.0: интеллектуальные рекомендации по электронной коммерции, кросс-база данных и запрос массивных данных из разных источников за считанные секунды
Болевые точки:
(1) Как объединить анализ, когда источников данных слишком много
(2) Интеллектуальная рекомендация должна быть реализована в короткие сроки
решение:
Возможность использования перекрестных источников DLI для простого устранения разрозненности данных. Теперь поддерживаются 10 типов источников данных и автономно созданные данные.
3. Анализ логов + DLI 2.0: обязательный сценарий для компаний, а стоимость биллинга ниже
Болевые точки:
(1) Промежуток времени анализа журнала большой
(2) Высокий коэффициент использования простаивающих ресурсов и низкий коэффициент использования
решение:
DLI оплачивается по объему, а один CU стоит всего 0,35 юаня в час.
4. Контроль рисков в режиме реального времени + DLI 2.0: сценарии в режиме реального времени, такие как финансы, эксплуатация и техническое обслуживание, снижают вероятность возникновения рисковых событий.
Болевые точки:
(1) Обновление данных происходит несвоевременно, и события риска происходят часто
(2) Необходимо глубоко понимать фоновую архитектуру Flink для анализа данных в реальном времени.
решение:
Система управления рисками предъявляет высокие требования к производительности в режиме реального времени, DLI использует высокопроизводительные вычислительные ресурсы, а один ЦП может обрабатывать от 1000 до 20 000 сообщений в секунду.
Бессерверная служба больших данных — это форма, ориентированная на будущее. По мере того, как текущие проблемы будут решаться одна за другой, ее доля в анализе больших данных будет с каждым годом определенно увеличиваться. Это действительно превращает анализ больших данных в инструмент, который каждое предприятие может использовать одновременно с водой и электричеством. Служба HUAWEI CLOUD Data Lake Discovery (DLI) может помочь предприятиям легко выполнять пакетную и потоковую обработку разнородных источников данных, а также анализировать и исследовать ценность данных.
Выучить больше,Вы можете войти в сервисный центр HUAWEI CLOUD Data Lake Discovery (DLI)
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~