Внедрение функции Sqoop, передающего компонента разработки больших данных

Большие данные

01 Введение в Sqoop

Sqoop — это инструмент Apache с открытым исходным кодом, в основном предназначенный для передачи данных между реляционными базами данных и кластерами Hadoop. Он может импортировать данные из реляционной базы данных в кластер Hadoop (т.е. импортировать в Hdfs). такжеОбучение работе с большими даннымиДанные из кластера Hadoop (HDFS) можно экспортировать в реляционную базу данных. Sqoop — это инструмент ETL, обладающий характеристиками эффективной и массовой передачи данных. В то же время родной Sqoop отправляет и запускает задачи в виде инструкций. У маленьких друзей есть нотка грусти, и они действуют как инструкции. Поэтому очень важно хорошо изучить инструкции.

02 Введение в функцию Sqoop

Сам sqoop также содержит ряд функций

Просмотрите включенные функции с помощью команды: sqoop help (подсказка: команда sqoop help, замените команду именем команды функции, вы можете просмотреть подробное описание функции. Например: sqoop help import, вы можете узнать подробное использование импорта)

  • 1. команда импорта sqoop

Импортируйте единую таблицу реляционной базы данных в hdfs кластера Hadoop. Таблицы приема кластера автоматически создаются в процессе импорта, могут быть обработаны проблемы с нулевыми данными и многое другое.

  • 2. команда sqoop import-all-tables

Импортируйте все таблицы в реляционную базу данных и всю базу данных в кластер Hadoop. В процессе импорта все таблицы должны иметь первичные ключи, могут быть импортированы только все столбцы всех таблиц, и все таблицы не могут иметь условий where.

  • 3. Команда экспорта sqoop

Экспорт данных кластера Hadoop в реляционную базу данных. В процессе импорта и экспорта можно задать параллельный экспорт, но он не должен быть слишком большим, а иногда база данных не выдерживает.

  • 4. команда задания sqoop

Директива задания может создать псевдоним для подтвержденной директивы импорта или экспорта. При повторном запуске просто запустите псевдоним с помощью команды sqoop job. Большие разделы кода инструкции опущены.

  • 5. команда хранилища метаданных sqoop

Вы можете использовать локальную задачу sqoop как общую задачу. Удаленная машина может подключиться к общей задаче через sqoop job --meat-connect и выполнить ее для осуществления удаленного вызова.

  • 6. команда sqoop list-databases

Вы можете просмотреть список всех баз данных под соединением. Удобно подтвердить источник подключения.

  • 7. команда sqoop list-tables

Вы можете просмотреть список всех таблиц под соединением.

  • 8. инструкция sqoop eval

Запрос данных или другие операции DML можно выполнять с помощью eval. Правильность источника данных может быть дополнительно подтверждена.

  • 9. Команда слияния sqoop

Различные блоки данных одной и той же таблицы, которые были импортированы в кластер, могут быть объединены. Убедитесь, что данные актуальны. В большинстве случаев слияние данных не использует эту функцию sqoop. По сути, небольшие партнеры по разработке данных сами пишут Sql.

Передача из данных здесь