Практический пример режима псевдораспределения Hadoop

Это 10-й день моего участия в Gengwen Challenge.Подробности о мероприятии:Обновить вызов

Предыдущий:Практический пример локального режима работы Hadoop, Сегодня я расскажу вам о режиме псевдораздачи Hadoop в сочетании с кейс-операциями. Фактически псевдораспределенный режим построен по принципу полностью распределенного режима (кластерного режима), но имеет только один сервер. Этот режим подходит новичкам с низкой конфигурацией компьютера для понимания механизма работы распределенных кластеров, в реальной работе этот режим не используется.

В псевдораспределенном режиме hadoop запускает все процессы на одном хосте, но в это время hadoop будет использовать распределенную файловую систему, и каждое задание также является независимым процессом, управляемым службой JobTracker. При этом, поскольку псевдораспределенный кластер hadoop имеет только один узел, блочная репликация HDFS будет ограничена одной репликой, а мастер и слейв также будут работать на локальном хосте. За исключением того, что этот режим на самом деле не является распределенным, его логика выполнения программы полностью аналогична завершению распределения, поэтому он часто используется разработчиками для проверки выполнения программы. Основное содержание: (1) Запустите HDFS и запустите программу MapReduce; (2) Запустите YARN и запустите программу MapReduce; (3) Настройте сервер истории; (4) Настройте агрегацию журналов.

Псевдораспределенный режим В предыдущем разделе приведены общие шаги по построению псевдораспределенного режима, а в этом разделе редактор объединяет практические операции, чтобы подробно представить весь процесс построения псевдораспределенного режима.

(1) настроить кластер; (2) запустить и протестировать добавление, удаление и запрос кластера; (3) выполнить случай WordCount.

/etc/hadoop/hadoop-env.sh

Настройте следующий контент в файле core-site.xml.На самом деле рекомендуется не вводить эту информацию о конфигурации вручную.Hadoop.Apache.org/docs/stable…

(a) Отформатируйте NameNode (форматируйте при первом запуске, не всегда форматируйте его позже)

bin/hdfs namenode -format

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

Примечание: jps — это команда JDK, а не команда Linux. Невозможно использовать jps без установки JDK

http://192.168.220.131:50070/dfshealth.html#tab-overview

Примечание. Если вы не можете просмотреть его, см. следующий пост для обработки.

woo woo woo.cn blog on.com/power-assisted tricycle/afraid/66…

Примечание. При обнаружении ошибки на предприятии часто необходимо проанализировать проблему и устранить ошибку в соответствии с информацией в журнале.

Текущий каталог: /opt/module/hadoop-2.7.2/logs

(г) Размышление: Почему нельзя все время форматировать NameNode, форматировать NameNode, на что следует обратить внимание?

(a) Создайте входную папку в файловой системе HDFS

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/xuefa/input /user/xuefa/output

(1) Настройте кластер для запуска MR на YARN; (2) Запустите и проверьте добавление, удаление и запрос кластера; (3) Выполните случай WordCount.

(d) Конфигурация: (переименовать mapred-site.xml.template в) mapred-site.xml

(a) Перед запуском необходимо убедиться, что NameNode и DataNode запущены

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

http://192.168.220.131:8088/cluster

bin/hdfs dfs rm -r /user/xuxefa/output

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/xuefa/input /user/xuefa/output

bin/hdfs dfs -cat /user/xuefa/output/*

Для просмотра истории работы программы необходимо настроить сервер истории. Конкретные шаги настройки следующие:

sbin/mr-jobhistory-daemon.sh start historyserver

http://hadoop101:19888/jobhistory

Концепция объединения журналов: после запуска приложения загрузите информацию журнала запуска программы в систему HDFS.

Преимущества функции агрегации журналов: Вы можете легко просматривать детали запущенной программы, что удобно для разработки и отладки.

Примечание. Чтобы включить функцию агрегирования журналов, необходимо перезапустить NodeManager, ResourceManager и HistoryManager.

Заказ:vim etc/hadoop/yarn-site.xml

4.2 Завершите работу NodeManager, ResourceManager и HistoryManager.

4.3 Запустите NodeManager, ResourceManager и HistoryManager.

bin/hdfs dfs -rm -r /user/xuefa/output

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/xuefa/input /user/xuefa/output

http://hadoop101:19888/jobhistory

Файлы конфигурации Hadoop делятся на две категории: файлы конфигурации по умолчанию и настраиваемые файлы конфигурации.Только когда пользователи хотят изменить значение конфигурации по умолчанию, им необходимо изменить пользовательский файл конфигурации и изменить значение соответствующего атрибута.

Четыре файла конфигурации core-site.xml, hdfs-site.xml, yarn-site.xml и mapred-site.xml хранятся по пути $HADOOP_HOME/etc/hadoop, и пользователи могут повторно изменять конфигурацию в соответствии с требования проекта.

Объясняется псевдораспределенный режим Hadoop, а в следующем разделе объясняется фокус разработки: полностью распределенный режим, пожалуйста, продолжайте обращать внимание. Редактор продолжит обновлять большие данные и другой контент в будущем, следите за обновлениями. Для получения более интересного контента, пожалуйста, обратите внимание на общедоступный номер: Сяо Хан отведет вас учиться

1623651408(1).jpg