01 Введение в Sqoop
Sqoop — это инструмент Apache с открытым исходным кодом, в основном предназначенный для передачи данных между реляционными базами данных и кластерами Hadoop. Он может импортировать данные из реляционной базы данных в кластер Hadoop (т.е. импортировать в Hdfs). такжеОбучение работе с большими даннымиДанные из кластера Hadoop (HDFS) можно экспортировать в реляционную базу данных. Sqoop — это инструмент ETL, обладающий характеристиками эффективной и массовой передачи данных. В то же время родной Sqoop отправляет и запускает задачи в виде инструкций. У маленьких друзей есть нотка грусти, и они действуют как инструкции. Поэтому очень важно хорошо изучить инструкции.
02 Введение в функцию Sqoop
Сам sqoop также содержит ряд функций
Просмотрите включенные функции с помощью команды: sqoop help (подсказка: команда sqoop help, замените команду именем команды функции, вы можете просмотреть подробное описание функции. Например: sqoop help import, вы можете узнать подробное использование импорта)
- 1. команда импорта sqoop
Импортируйте единую таблицу реляционной базы данных в hdfs кластера Hadoop. Таблицы приема кластера автоматически создаются в процессе импорта, могут быть обработаны проблемы с нулевыми данными и многое другое.
- 2. команда sqoop import-all-tables
Импортируйте все таблицы в реляционную базу данных и всю базу данных в кластер Hadoop. В процессе импорта все таблицы должны иметь первичные ключи, могут быть импортированы только все столбцы всех таблиц, и все таблицы не могут иметь условий where.
- 3. Команда экспорта sqoop
Экспорт данных кластера Hadoop в реляционную базу данных. В процессе импорта и экспорта можно задать параллельный экспорт, но он не должен быть слишком большим, а иногда база данных не выдерживает.
- 4. команда задания sqoop
Директива задания может создать псевдоним для подтвержденной директивы импорта или экспорта. При повторном запуске просто запустите псевдоним с помощью команды sqoop job. Большие разделы кода инструкции опущены.
- 5. команда хранилища метаданных sqoop
Вы можете использовать локальную задачу sqoop как общую задачу. Удаленная машина может подключиться к общей задаче через sqoop job --meat-connect и выполнить ее для осуществления удаленного вызова.
- 6. команда sqoop list-databases
Вы можете просмотреть список всех баз данных под соединением. Удобно подтвердить источник подключения.
- 7. команда sqoop list-tables
Вы можете просмотреть список всех таблиц под соединением.
- 8. инструкция sqoop eval
Запрос данных или другие операции DML можно выполнять с помощью eval. Правильность источника данных может быть дополнительно подтверждена.
- 9. Команда слияния sqoop
Различные блоки данных одной и той же таблицы, которые были импортированы в кластер, могут быть объединены. Убедитесь, что данные актуальны. В большинстве случаев слияние данных не использует эту функцию sqoop. По сути, небольшие партнеры по разработке данных сами пишут Sql.
Передача из данных здесь