Flink – это платформа для потоковой передачи больших данных с открытым исходным кодом. Она может одновременно выполнять пакетную и потоковую передачу. Она обладает такими преимуществами, как отказоустойчивость, высокая пропускная способность и низкая задержка. В этой статье кратко описаны этапы установки flink в Windows и Linux, а также примеры программ.
Прежде всего, чтобы запустить Flink, нам нужно скачать и распаковать бинарный пакет Flink, адрес загрузки выглядит следующим образом: https://flink.apache.org/downloads.html.
Мы можем выбрать комбинированную версию Flink и Scala, здесь мы выбираем последнюю версию 1.9.Apache Flink 1.9.0 for Scala 2.12Скачать.
После успешной загрузки вы можете запустить Flink в системе Windows через bat-файл Windows или Cygwin.
В системе Linux она делится на одну машину, кластер, Hadoop и другие ситуации.
Запуск через bat-файл Windows
Сначала запустите окно командной строки cmd, войдите в папку flink и запустите каталог bin.start-cluster.bat
Примечание. Для запуска flink требуется среда java. Убедитесь, что в системе настроена переменная среды java.
$ cd flink
$ cd bin
$ start-cluster.bat
Starting a local cluster with one JobManager process and one TaskManager process.
You can terminate the processes via CTRL-C in the spawned shell windows.
Web interface by default on http://localhost:8081/.
После того, как будет показано, что запуск прошел успешно, мы можем увидеть страницу управления flink, посетив http://localhost:8081/ в браузере.
Запуск через Cygwin
CygwinЭто UNIX-подобная среда моделирования, работающая на платформе Windows.Загрузить с официального сайта: http://cygwin.com/install.html
После успешной установки запустите терминал Cygwin и запуститеstart-cluster.sh
сценарий.
$ cd flink
$ bin/start-cluster.sh
Starting cluster.
После того, как будет показано, что запуск прошел успешно, мы можем увидеть страницу управления flink, посетив http://localhost:8081/ в браузере.
Установите flink в системе Linux
Установка одного узла
Установка одного узла в Linux такая же, как и в cygwin, загрузитеApache Flink 1.9.0 for Scala 2.12, а затем просто запустите start-cluster.sh после распаковки.
Установка кластера
Установка кластера делится на следующие этапы:
1. Скопируйте распакованный каталог flink на каждую машину.
2. Выберите один в качестве главного узла, а затем измените все машины conf/flink-conf.yaml
jobmanager.rpc.address = master主机名
3. Измените conf/slaves, чтобы записать все рабочие узлы
work01
work02
4. Запускаем кластер на мастере
bin/start-cluster.sh
Установить на Хадуп
Мы можем выбрать запуск Flink в кластере Yarn.
Загрузите пакет Flink для Hadoop
Убедитесь, что HADOOP_HOME установлен правильно.
Запустите bin/yarn-session.sh
Запустите пример программы flink
Пример партии:
Отправьте пример пакетной программы flink:
bin/flink run examples/batch/WordCount.jar
Это пакетный образец программы по примерам, предоставленным flink, который подсчитывает количество слов.
$ bin/flink run examples/batch/WordCount.jar
Starting execution of program
Executing WordCount example with default input data set.
Use --input to specify file input.
Printing result to stdout. Use --output to specify output path.
(a,5)
(action,1)
(after,1)
(against,1)
(all,2)
(and,12)
(arms,1)
(arrows,1)
(awry,1)
(ay,1)
Результат получен, здесь считается набор данных по умолчанию, а ввод и вывод можно указать с помощью --input --output.
Мы можем видеть, что происходит на странице:
Пример обработки потока:
Запустите NC-сервер:
nc -l 9000
Отправьте пример пакетной программы flink:
bin/flink run examples/streaming/SocketWindowWordCount.jar --port 9000
Это пример программы потоковой обработки по примерам, предоставленным flink, которая получает входящие данные сокета и подсчитывает количество слов.
написать слово на нк стороне
$ nc -l 9000
lorem ipsum
ipsum ipsum ipsum
bye
вывод в лог
$ tail -f log/flink-*-taskexecutor-*.out
lorem : 1
bye : 1
ipsum : 4
остановить мерцание
$ ./bin/stop-cluster.sh
Король обработки больших данных в реальном времени — Flink
Больше вычислений в реальном времени, Flink, Kafka и других связанных технических сообщений в блогах, добро пожаловать, чтобы обратить внимание на потоковые вычисления в реальном времени.