Три фреймворка для потоковых вычислений: Storm, Spark и Flink

искусственный интеллект

Мы знаем, что режимы вычислений больших данных в основном делятся на пакетные вычисления, потоковые вычисления, интерактивные вычисления и графовые вычисления. Среди них потоковые вычисления и пакетные вычисления являются двумя основными режимами вычислений больших данных, которые подходят для различных сценариев приложений больших данных.

Текущие основные платформы потоковых вычислений:Storm, Spark Streaming, FlinkВ-третьих, основные принципы заключаются в следующем:

Apache Storm

В Storm сначала необходимо разработать структуру вычислений в реальном времени, которую мы называем топологией. Затем эта топология передается в кластер, где главный узел отвечает за распространение кода на рабочие узлы, а рабочие узлы отвечают за выполнение кода. В топологии есть две роли носика и болта. Данные передаются между носиками, которые отправляют поток данных в виде кортежей, болты отвечают за преобразование потока данных.

Apache Spark

Spark Streaming, расширение основного API Spark, не обрабатывает один поток данных за раз, как это делает Storm. Вместо этого он сегментирует поток данных через временные интервалы перед его обработкой. Абстракция Spark для непрерывных потоков данных, которую мы называем DStream (Discretized Stream). DStream — это небольшой пакет RDD (Resilient Distributed Data Set), а RDD — это распределенный набор данных, который можно преобразовать с помощью произвольных функций и скользящих окон данных (оконные вычисления) для достижения параллельных операций.

Apache Flink

Вычислительная платформа для потоковой передачи данных + пакетных данных. Рассматривая пакетные данные как частный случай потоковых данных, они имеют низкую задержку (уровень миллисекунд) и могут гарантировать, что передача сообщения не будет потеряна или повторена.

Flink творчески объединяет потоковую обработку и пакетную обработку.При рассмотрении потоковой обработки поток входных данных является неограниченным, тогда как пакетная обработка рассматривается как специальная потоковая обработка, но ее входной поток данных определяется как ограниченный. Программа Flink состоит из двух основных строительных блоков: Stream и Transformation, где Stream — это промежуточные данные результата, а Transformation — это операция, которая выполняет вычислительную обработку одного или нескольких входных потоков и выводит один или несколько потоков результатов.

Сравнение этих трех вычислительных фреймворков выглядит следующим образом:

Справочная статья:

Streaming Big Data: Storm, Spark and Samza

Связанное чтение:

Концепции и показатели для оценки системы рекомендаций

Рабочий процесс системы рекомендаций

Народная система рекомендаций

Хотите узнать о рекомендательных системах? Смотри сюда! (2) - Метод нейронной сети

Хотите узнать о рекомендательных системах? Смотри сюда! (1) - Совместная фильтрация и разложение по единичным значениям

Как AutoML реализует автоматический онлайн и O&M интеллектуальной системы рекомендаций?

Начало работы с рекомендательными системами, список знаний, которые вы не должны пропустить

Если вы хотите узнать больше, выполните поиск и подпишитесь на общедоступную учетную запись WeChat Xianjian (ID: dsfsxj).

Этот аккаунтИнтеллектуальные рекомендации четвертой парадигмы Продукты Первая рекомендацияофициальный аккаунт. Аккаунт основан на компьютерной сфере, особенно на передовых исследованиях, связанных с искусственным интеллектом. Он направлен на то, чтобы поделиться с общественностью большим количеством знаний, связанных с искусственным интеллектом, и способствовать пониманию общественностью искусственного интеллекта с профессиональной точки зрения. Предоставить открытую платформу. для обсуждения, общения и обучения, чтобы каждый мог как можно скорее насладиться ценностью, созданной искусственным интеллектом.