Практический пример режима псевдораспределения Hadoop

Большие данные
Практический пример режима псевдораспределения Hadoop

Это 10-й день моего участия в Gengwen Challenge.Подробности о мероприятии:Обновить вызов

图片

Предыдущий:Практический пример локального режима работы Hadoop, Сегодня я расскажу вам о режиме псевдораздачи Hadoop в сочетании с кейс-операциями. Фактически псевдораспределенный режим построен по принципу полностью распределенного режима (кластерного режима), но имеет только один сервер. Этот режим подходит новичкам с низкой конфигурацией компьютера для понимания механизма работы распределенных кластеров, в реальной работе этот режим не используется.

В псевдораспределенном режиме hadoop запускает все процессы на одном хосте, но в это время hadoop будет использовать распределенную файловую систему, и каждое задание также является независимым процессом, управляемым службой JobTracker. При этом, поскольку псевдораспределенный кластер hadoop имеет только один узел, блочная репликация HDFS будет ограничена одной репликой, а мастер и слейв также будут работать на локальном хосте. За исключением того, что этот режим на самом деле не является распределенным, его логика выполнения программы полностью аналогична завершению распределения, поэтому он часто используется разработчиками для проверки выполнения программы. Основное содержание: (1) Запустите HDFS и запустите программу MapReduce; (2) Запустите YARN и запустите программу MapReduce; (3) Настройте сервер истории; (4) Настройте агрегацию журналов.

Псевдораспределенный режим В предыдущем разделе приведены общие шаги по построению псевдораспределенного режима, а в этом разделе редактор объединяет практические операции, чтобы подробно представить весь процесс построения псевдораспределенного режима.

(1) настроить кластер; (2) запустить и протестировать добавление, удаление и запрос кластера; (3) выполнить случай WordCount.

/etc/hadoop/hadoop-env.sh

图片

图片

图片

Настройте следующий контент в файле core-site.xml.На самом деле рекомендуется не вводить эту информацию о конфигурации вручную.Hadoop.Apache.org/docs/stable…

图片

图片

图片

(a) Отформатируйте NameNode (форматируйте при первом запуске, не всегда форматируйте его позже)

图片

bin/hdfs namenode -format

图片

图片

sbin/hadoop-daemon.sh start namenode

图片

sbin/hadoop-daemon.sh start datanode

图片

Примечание: jps — это команда JDK, а не команда Linux. Невозможно использовать jps без установки JDK

http://192.168.220.131:50070/dfshealth.html#tab-overview

图片Примечание. Если вы не можете просмотреть его, см. следующий пост для обработки.

woo woo woo.cn blog on.com/power-assisted tricycle/afraid/66…

Примечание. При обнаружении ошибки на предприятии часто необходимо проанализировать проблему и устранить ошибку в соответствии с информацией в журнале.

Текущий каталог: /opt/module/hadoop-2.7.2/logs

图片

(г) Размышление: Почему нельзя все время форматировать NameNode, форматировать NameNode, на что следует обратить внимание?

图片

(a) Создайте входную папку в файловой системе HDFS

图片

图片

图片

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/xuefa/input /user/xuefa/output

图片

图片

图片

(1) Настройте кластер для запуска MR на YARN; (2) Запустите и проверьте добавление, удаление и запрос кластера; (3) Выполните случай WordCount.

图片

图片

图片

图片

图片

(d) Конфигурация: (переименовать mapred-site.xml.template в) mapred-site.xml

图片

图片

图片

(a) Перед запуском необходимо убедиться, что NameNode и DataNode запущены

图片

图片

sbin/yarn-daemon.sh start resourcemanager

图片

sbin/yarn-daemon.sh start nodemanager

图片

http://192.168.220.131:8088/cluster

图片

bin/hdfs dfs rm -r /user/xuxefa/output

图片

图片

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/xuefa/input  /user/xuefa/output

bin/hdfs dfs -cat /user/xuefa/output/*

图片

Для просмотра истории работы программы необходимо настроить сервер истории. Конкретные шаги настройки следующие:

图片

sbin/mr-jobhistory-daemon.sh start historyserver

图片

http://hadoop101:19888/jobhistory

Концепция объединения журналов: после запуска приложения загрузите информацию журнала запуска программы в систему HDFS.

Преимущества функции агрегации журналов: Вы можете легко просматривать детали запущенной программы, что удобно для разработки и отладки.

Примечание. Чтобы включить функцию агрегирования журналов, необходимо перезапустить NodeManager, ResourceManager и HistoryManager.

Заказ:vim etc/hadoop/yarn-site.xml

图片4.2 Завершите работу NodeManager, ResourceManager и HistoryManager.

图片

4.3 Запустите NodeManager, ResourceManager и HistoryManager.

图片

bin/hdfs dfs -rm -r /user/xuefa/output

图片

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/xuefa/input /user/xuefa/output

图片

http://hadoop101:19888/jobhistory

Файлы конфигурации Hadoop делятся на две категории: файлы конфигурации по умолчанию и настраиваемые файлы конфигурации.Только когда пользователи хотят изменить значение конфигурации по умолчанию, им необходимо изменить пользовательский файл конфигурации и изменить значение соответствующего атрибута.

图片

Четыре файла конфигурации core-site.xml, hdfs-site.xml, yarn-site.xml и mapred-site.xml хранятся по пути $HADOOP_HOME/etc/hadoop, и пользователи могут повторно изменять конфигурацию в соответствии с требования проекта.

Объясняется псевдораспределенный режим Hadoop, а в следующем разделе объясняется фокус разработки: полностью распределенный режим, пожалуйста, продолжайте обращать внимание. Редактор продолжит обновлять большие данные и другой контент в будущем, следите за обновлениями. Для получения более интересного контента, пожалуйста, обратите внимание на общедоступный номер: Сяо Хан отведет вас учиться

1623651408(1).jpg