Эта статья знакомит вас с Hadoop

Большие данные

Проще говоря, Hadoop — это инструмент для хранения и анализа больших данных.Это платформа с открытым исходным кодом для хранения больших данных и запуска приложений распределенного анализа на распределенных кластерах серверов.Основными компонентами являются HDFS и MapReduce.

  • HDFS — это распределенная файловая система: сервер Namenode, который хранит информацию о метаданных файла, и сервер Datanode, который фактически хранит данные, введены для хранения и чтения данных распределенным образом.
  • MapReduce — это вычислительная среда: основная идея MapReduce заключается в распределении вычислительных задач по серверам в кластере для выполнения. При разделении вычислительных задач (вычисление карты/сокращение вычислений) задачи распределяются в соответствии с планировщиком задач (JobTracker).

Роль и функции Hadoop

  • Hadoop использует метод распределенного хранения, который повышает скорость чтения и записи и увеличивает емкость хранилища.
  • Использование MapReduce для интеграции данных в распределенных файловых системах может обеспечить эффективный анализ и обработку данных.
  • Hadoop также использует метод хранения избыточных данных для обеспечения надежности данных (не боясь потерять данные).
  • HDFS в HDFS, и он основан на языке Java, благодаря чему Hadoop можно развернуть в недорогом компьютерном кластере.
  • Возможности управления данными HDFS в Hadoop, высокая эффективность MapReduce при обработке задач и его функции с открытым исходным кодом делают его блестящим в аналогичных распределенных системах и широко используются во многих отраслях.

Преимущества Хадуп

  • Hadoop надежен: поскольку он предполагает, что вычислительные элементы и хранилище выйдут из строя, он поддерживает несколько копий рабочих данных, гарантируя, что обработка может быть перераспределена между отказавшими узлами.
  • Hadoop эффективен: поскольку он работает параллельно, обработка данных ускоряется за счет параллельной обработки. Hadoop также масштабируется и может обрабатывать петабайты данных.
  • Hadoop недорог: полагается на дешевые серверы: так что это дешево, и каждый может его использовать.
  • Работает на платформах Linux: Hadoop поставляется с фреймворком, написанным на языке Java, поэтому идеально подходит для работы на производственных платформах Linux.
  • Поддерживает несколько языков программирования: приложения на Hadoop также можно писать на других языках, например на C++.

Схематическая архитектура Hadoop

在这里插入图片描述

  • Внизу находится распределенная файловая система Hadoop (HDFS), в которой хранятся файлы на всех узлах хранения в кластере Hadoop.Верхний уровень HDFS — это механизм MapReduce;
  • HBase находится на уровне структурированного хранилища и представляет собой базу данных с распределенным столбцовым хранилищем (абстракция, основанная на HDFS);
  • Zookeeper — это распределенная высокодоступная служба координации, предоставляющая базовые услуги, такие как распределенные блокировки;
  • Hive — это хранилище данных на основе Hadoop для управления структурированными/полуструктурированными данными, хранящимися в HDFS или Hbase.

HDFS и MapReduce вместе образуют ядро ​​архитектуры распределенной системы Hadoop, взаимодействуя друг с другом и выполняя основные задачи распределенного кластера Hadoop.

Это просто краткое упоминание сейчас, и я объясню это позже!

==В следующих двух разделах будет образец для следующего введения==

Графическая архитектура HDFS

在这里插入图片描述

HDFS представляет собой структуру master-slave, состоящую из Master (главный узел) и Slave (подчиненный узел). Он в основном состоит из Name-Node, Secondary NameNode и DataNode.

  • NameNode: на главном узле управляет пространством имен и сопоставлением блоков HDFS, где хранятся метаданные и сопоставления файлов и блоков.

Пространство имен: например, какие папки находятся в файловой системе и какие файлы находятся в папках.

  • Вторичный NameNode: эквивалент резервного NameNode.
  • DataNode: на ведомом узле данные фактически сохраняются, выполняется чтение и запись блока данных, а информация о хранении передается на NameNode.
  • HDFS поддерживает пользователей для хранения данных в виде файлов, файлы разделены на несколько блоков данных, и эти несколько блоков данных хранятся в группе (несколько) DataNodes
  • Namenode проводит согласование, и, наконец, datanode возвращает результат непосредственно клиенту.

Графический MapReduce

在这里插入图片描述

Платформа MapReduce состоит из JobTracker, работающего на главном узле, и TaskTracker, работающего на каждом подчиненном узле кластера.

Главный узел периодически опрашивает подчиненные узлы, чтобы подтвердить, доступны ли они.

Главный узел отвечает за планирование всех задач, составляющих задание, которые распределяются между различными подчиненными узлами; главный узел контролирует их выполнение и повторно выполняет ранее невыполненные задачи. Ведомые несут ответственность только за задачи, поставленные мастером Когда задание отправлено, после того как JobTracker получит отправленное задание и информацию о конфигурации, он распространит информацию о конфигурации на подчиненные узлы, запланирует задачи и проследит за выполнением TaskTracker.

TaskTracker и datanode взаимодействуют друг с другом, а JobTracker и namenode могут не совпадать.

Тогда что такое MapReduce?Это делится на Map и Reduce.Map предназначен для назначения задач, а большая задача делится на маленькие задачи.Это называется map, а затем reduce объединяет результаты, полученные каждым ведомым устройством, и обрабатывает результаты .