ETL для больших данных без кода — начало работы с StreamSet

Большие данные

Введение

在这里插入图片描述
Сборщик данных StreamSet (далее именуемый StreamSet,Официальный сайт) — это легкий, мощный механизм проектирования и выполнения, который можно использовать для маршрутизации и обработки данных в потоках данных. Он использует концепцию задач конвейера для организации и определения задач обработки потока данных, которые должны быть выполнены, которые состоят из представления источника конвейера, цели и любой другой обработки, которую вы хотите выполнить. StreamSet обрабатывает данные по мере их поступления к источнику и молча ожидает, когда они не нужны. Вы можете просматривать статистику данных в режиме реального времени, проверять данные по мере их прохождения через конвейер или просматривать моментальный снимок данных.

Рабочий интерфейс

在这里插入图片描述

Область/Значок название описывать
1 Трубка Холст Холст используется для настройки, предварительного просмотра или мониторинга конвейеров.
2 Панель свойств/панель предварительного просмотра/панель монитора При настройке конвейера на панели «Свойства» отображаются свойства конвейера или выбранного этапа. Вы можете изменить размер, свернуть и развернуть панель. При предварительном просмотре данных на панели «Предварительный просмотр» отображаются данные, входящие и исходящие из выбранной стадии или группы стадий. Он также может отображать свойства сцены и конфигурацию предварительного просмотра. При наблюдении за работающим конвейером на панели «Монитор» отображаются метрики и статистика в реальном времени.
home Главная значок Отображает домашнюю страницу со списком конвейеров и их статусом, что позволяет выполнять обслуживание конвейеров и переходить к отдельным конвейерам.
значок диспетчера пакетов Значок диспетчера пакетов Отображает диспетчер пакетов, позволяющий установить дополнительные библиотеки компонентов.
значок уведомления Показать уведомления.
значки управления Предоставляет доступ к свойствам конфигурации StreamSet, каталогам и журналам. Также позволяет перезапускать и закрывать StreamSets.
значок пользователя Отображает активных пользователей и роли, назначенные пользователям. Также позволяет отменить регистрацию StreamSet.
значок справки Предоставляет контекстно-зависимую справку на основе информации на панели. Позволяет настроить параметры отображения и указать, следует ли использовать локальную или размещенную версию справки.
ссылка на список трубопроводов Ссылка на список пайплайнов на главной странице. Используется для просмотра списка доступных конвейеров, выполнения обслуживания конвейера, такого как запуск или совместное использование конвейеров, а также перехода к отдельным конвейерам.
больше иконок Обеспечивает дополнительные операции для конвейера.

Функция предварительного просмотра (аналогично выводу отладки)

1. Обзор предварительного просмотра данных

Вы можете просмотреть данные, чтобы помочь построить или настроить конвейер. Вы также можете использовать предварительный просмотр данных во время разработки. Вы можете использовать предварительный просмотр данных с полными или неполными конвейерами и фрагментами. Вы можете выбрать один из нескольких вариантов, чтобы обеспечить предварительный просмотр исходных данных. При предварительном просмотре исходные данные проходят через конвейер или фрагмент, что позволяет увидеть, как данные передаются и изменяются в каждом компоненте. Вы можете отредактировать свойства сцены и снова запустить предварительный просмотр, чтобы увидеть, как изменения повлияют на данные. Вы также можете редактировать данные предварительного просмотра, чтобы протестировать и настроить логику конвейера. Вы можете просмотреть данные для одного компонента за раз или для группы компонентов. Вы также можете просматривать данные в виде списка или таблицы и обновлять данные предварительного просмотра.

2. Доступность предварительного просмотра данных

Вы можете просмотреть полные и неполные пайплайны. Когда доступен предварительный просмотр данных, значок предварительного просмотра данных становится активным. Предварительный просмотр данных возможен при следующих условиях:

  • Все компоненты в конвейере связаны
  • Все необходимые свойства определены

Совет: Конфигурация сцены не обязательно должна быть точной или полной для предварительного просмотра данных. После подключения всех этапов можно включить предварительный просмотр данных, введя любое допустимое значение для нужного свойства.

3. Исходные данные для предварительного просмотра данных

Предварительный просмотр данных доступен для следующих типов данных:

  • Данные из исходных компонентов.
  • Данные из источника тестов — используются данные из источника тестов, настроенного в свойствах конвейера.
  • From One Data Snapshot (Из одного моментального снимка данных) — используйте моментальные снимки из того же конвейера или других конвейеров. Применяется только для труб.

4. Пишите в пункт назначения

Как инструмент разработки, Data Preview по умолчанию не записывает данные в цель. При желании вы можете настроить предварительный просмотр для записи данных в цель. Мы не рекомендуем записывать данные предварительного просмотра в рабочие места назначения.

5. Примечания

При предварительном просмотре данных помните о следующих соображениях:

  • Данные о дате, дате-времени и времени — в предварительном просмотре данных отображаются данные о дате, дате-времени и времени с использованием формата локали браузера по умолчанию. Например, если браузер использует локаль en_US, в предварительном просмотре дата отображается в следующем формате: МММ д, гг:мм:сс a.
  • Клиентские конвейеры Oracle CDC — при предварительном просмотре конвейера с использованием источника клиента Oracle CDC предварительный просмотр данных может истечь по времени перед подключением к исходной системе. Когда это произойдет, попробуйте увеличить время ожидания до 120 000 мс, чтобы разрешить соединения с необработанным временем.
  • Формат данных всего файла — при предварительном просмотре конвейеров, которые обрабатывают данные файла целиком, в предварительном просмотре данных отображается только одна запись.

6. Пользовательский интерфейс сборщика данных — режим предварительного просмотра

Вы можете использовать StreamSet, чтобы увидеть, как передаются данные. На следующем изображении показан StreamSet в режиме предварительного просмотра:在这里插入图片描述 在这里插入图片描述在这里插入图片描述