Быстрый запуск Flink — установка и запуск примера

file

Flink – это платформа для потоковой передачи больших данных с открытым исходным кодом. Она может одновременно выполнять пакетную и потоковую передачу. Она обладает такими преимуществами, как отказоустойчивость, высокая пропускная способность и низкая задержка. В этой статье кратко описаны этапы установки flink в Windows и Linux, а также примеры программ.

Прежде всего, чтобы запустить Flink, нам нужно скачать и распаковать бинарный пакет Flink, адрес загрузки выглядит следующим образом: https://flink.apache.org/downloads.html.

file

Мы можем выбрать комбинированную версию Flink и Scala, здесь мы выбираем последнюю версию 1.9.Apache Flink 1.9.0 for Scala 2.12Скачать.

После успешной загрузки вы можете запустить Flink в системе Windows через bat-файл Windows или Cygwin.

В системе Linux она делится на одну машину, кластер, Hadoop и другие ситуации.

Запуск через bat-файл Windows

Сначала запустите окно командной строки cmd, войдите в папку flink и запустите каталог bin.start-cluster.bat

Примечание. Для запуска flink требуется среда java. Убедитесь, что в системе настроена переменная среды java.

$ cd flink
$ cd bin
$ start-cluster.bat
Starting a local cluster with one JobManager process and one TaskManager process.
You can terminate the processes via CTRL-C in the spawned shell windows.
Web interface by default on http://localhost:8081/.

После того, как будет показано, что запуск прошел успешно, мы можем увидеть страницу управления flink, посетив http://localhost:8081/ в браузере.

Запуск через Cygwin

CygwinЭто UNIX-подобная среда моделирования, работающая на платформе Windows.Загрузить с официального сайта: http://cygwin.com/install.html

После успешной установки запустите терминал Cygwin и запуститеstart-cluster.shсценарий.

$ cd flink
$ bin/start-cluster.sh
Starting cluster.

file

Установите flink в системе Linux

Установка одного узла

Установка одного узла в Linux такая же, как и в cygwin, загрузитеApache Flink 1.9.0 for Scala 2.12, а затем просто запустите start-cluster.sh после распаковки.

Установка кластера

Установка кластера делится на следующие этапы:

1. Скопируйте распакованный каталог flink на каждую машину.

2. Выберите один в качестве главного узла, а затем измените все машины conf/flink-conf.yaml

jobmanager.rpc.address = master主机名

3. Измените conf/slaves, чтобы записать все рабочие узлы

work01
work02

4. Запускаем кластер на мастере

bin/start-cluster.sh

Установить на Хадуп

Мы можем выбрать запуск Flink в кластере Yarn.

Загрузите пакет Flink для Hadoop

Убедитесь, что HADOOP_HOME установлен правильно.

Запустите bin/yarn-session.sh

Запустите пример программы flink

Пример партии:

Отправьте пример пакетной программы flink:

bin/flink run examples/batch/WordCount.jar

Это пакетный образец программы по примерам, предоставленным flink, который подсчитывает количество слов.

$ bin/flink run examples/batch/WordCount.jar
Starting execution of program
Executing WordCount example with default input data set.
Use --input to specify file input.
Printing result to stdout. Use --output to specify output path.
(a,5)
(action,1)
(after,1)
(against,1)
(all,2)
(and,12)
(arms,1)
(arrows,1)
(awry,1)
(ay,1)

Результат получен, здесь считается набор данных по умолчанию, а ввод и вывод можно указать с помощью --input --output.

Мы можем видеть, что происходит на странице:

file

Пример обработки потока:

Запустите NC-сервер:

nc -l 9000

Отправьте пример пакетной программы flink:

bin/flink run examples/streaming/SocketWindowWordCount.jar --port 9000

Это пример программы потоковой обработки по примерам, предоставленным flink, которая получает входящие данные сокета и подсчитывает количество слов.

написать слово на нк стороне

$ nc -l 9000
lorem ipsum
ipsum ipsum ipsum
bye

вывод в лог

$ tail -f log/flink-*-taskexecutor-*.out
lorem : 1
bye : 1
ipsum : 4

остановить мерцание

$ ./bin/stop-cluster.sh

Король обработки больших данных в реальном времени — Flink

Больше вычислений в реальном времени, Flink, Kafka и других связанных технических сообщений в блогах, добро пожаловать, чтобы обратить внимание на потоковые вычисления в реальном времени.

file