Выпущен StreamSets 3.22.x, загрузите его в Baidu Netdisk

Большие данные

Учащиеся скачавшие StreamSets должны иметь глубокое понимание.Скорость медленнее скорости черепахи.Поскольку она старая и битая, то скачать ее реально невозможно.Нет,чтобы решить эту проблему,я специально ставлю лестницу и потянул его обратно.

1. Выпуск из Дня дурака

Во-первых, это не ложь, в новой версии добавлены некоторые функции и исправлены некоторые ошибки.

  • Версия 3.22.1 — 1 апреля 2021 г.
  • Версия 3.22.0 — 23 марта 2021 г.

2. Новые функции и улучшения

2.1 Усовершенствования компонентов

  • Процессор поиска JDBC: процессор включает новое свойство «проверить сопоставление столбцов». Если этот флажок установлен, все столбцы в списке сопоставления столбцов должны существовать в базе данных при запуске конвейера. В новых конвейерах это свойство включено по умолчанию. Модернизированные трубопроводы не затрагиваются.
    • JDBC Multitable Consumer origin: Вы можете выбрать квадратные скобки для символов. «Нет» также можно выбрать при чтении из базы данных Oracle или PostgreSQL. Раньше это работало только для баз данных MySQL и Microsoft SQL Server.
    • Этапы Kafka: использовать механизм SASL как флажок PLAIN, переименованный в механизм SASL и предоставляющий меню параметров.
    • Этапы MongoDB: при использовании аутентификации LDAP вы можете настроить свойство механизма аутентификации, выбрав между аутентификацией на основе сервера или обычной аутентификацией.
    • Происхождение двоичного журнала MySQL: добавьте новый атрибут подключения jdbc. Позволяет указать полную строку подключения JDBC, а также с необязательными параметрами. Это свойство заменяет свойства имени хоста и порта.
    Использовать свойства учетных данных — этот параметр можно выбрать на вкладке «Учетные данные».
    • Происхождение Oracle CDC: Анализатор ПЭГ теперь доступен в производстве. Это больше не считается бета-функцией.
    • Этапы Salesforce: Salesforce теперь поддерживает подключение к Salesforce через OAuth. Сборщик данных использует реализацию JWT для межмашинного OAuth. Новое свойство «Метод аутентификации» позволяет выбрать аутентификацию OAuth или Basic.
    • Salesforce Origin: в событии изменения или платформы теперь доступно свойство «Параметры воспроизведения». Ранее он был доступен только при обработке событий платформы.
    • Этапы клиента SFTP/FTP/FTPS: свойство «Протокол» может быть настроено для явного указания протокола, который вы хотите использовать. Раньше он определялся автоматически на основе указанного URL-адреса ресурса. Это не повлияет на обновленный конвейер

2.2 Другие улучшения

  • Новый синтаксический анализатор разделителей: можно настроить новое свойство синтаксического анализатора CSV, чтобы разрешить использование синтаксического анализатора Univocity при чтении данных с разделителями. Анализатор Univocity может повысить производительность конвейера при чтении файлов с широкими разделителями. По умолчанию используется парсер Apache Commons. Это изменение не затрагивает обновленные конвейеры.
  • Пакеты поддержки. Когда вы загружаете пакет поддержки, вы больше не будете включать снимки конвейера или сгенерированную статистику. Это необходимо для дополнительной защиты конфиденциальности ваших данных.

3. Исправить ошибки

  • SDC-16847: Когда клиентский конвейер Oracle CDC дает сбой из-за того, что часовой пояс StreamSet отличается от часового пояса базы данных Oracle.
  • SDC-16843: Кнопки «Опубликовать конвейер» и «Загрузить опубликованный конвейер» сборщика данных не могут работать и вызывают исключение нулевого указателя.
  • SDC-16806: Источник подписчика MQTT настроен на использование атрибута отключения постоянного сеанса Clean, не обрабатывая все данные, поступающие между каналами.
  • SDC-16680:Несколько попыток запустить и остановить конвейер одновременно могут привести к сбою запуска конвейера.

4. Обновление

Обновление требует 8 шагов.

  • закрыть старую версию
  • Резервное копирование данных старой версии
  • установить новую версию
  • Обновите переменные среды
  • Обновить файл конфигурации
  • Установите дополнительные библиотеки
  • Удалить старый репозиторий
  • Запустите новую версию.

4.1 Шаг 1 Закройте предыдущую версию

Остановите все конвейеры, затем закройте предыдущую версию сборщика данных.

  1. Используйте один из следующих методов, чтобы остановить все запущенные конвейеры:
  • Если вы не зарегистрированы для использования с StreamSets Control Hub, используйте пользовательский интерфейс для остановки конвейера.

На домашней странице выберите все запущенные конвейеры в списке и щелкните значок «Остановить».

  • Если Data Collector зарегистрирован для использования с StreamSets Control Hub, используйте пользовательский интерфейс Control Hub, чтобы остановить все задания, запущенные в Data Collector.

На странице заданий Control Center отфильтруйте задания по движку и метке движка. Выберите все активные задания в списке и щелкните значок «Остановить задание».

  1. Выключите Data Collector одним из следующих способов:
  • Чтобы завершить работу с помощью командной строки, используйте необходимые команды для вашей операционной системы.

Для CentOS 6, Oracle Linux 6 или Red Hat Enterprise Linux 6 используйте:service sdc stop

  • Для CentOS 7, Oracle Linux 7 или Red Hat Enterprise Linux 7 используйте:systemctl stop sdc

  • Чтобы использовать пользовательский интерфейс сборщика данных, щелкните Администрирование > Закрыть. Когда появится диалоговое окно подтверждения, нажмите Да.

4.2 Шаг 2 Резервное копирование предыдущей версии

Перед установкой новой версии создайте резервную копию файлов в каталогах данных и ресурсов предыдущей версии. Вам также потребуется создать резервную копию файла конфигурации среды, чтобы он не был перезаписан при установке новой версии. Таким образом, вы можете продолжать запускать предыдущие версии по мере необходимости.

Сделайте резервную копию следующих каталогов и файлов:

  • Каталог данных, определенный в переменной среды SDC_DATA. По умолчанию/var/lib/sdc.
  • Каталог ресурсов, определенный в переменной среды SDC_RESOURCES. По умолчанию /var/lib/sdc-resources.
  • Файл, определяющий переменные среды в зависимости от операционной системы:

CentOS 6, Oracle Linux 6 или Red Hat Enterprise Linux 6-$SDC_DIST/libexec/sdcd-env.shдокумент. CentOS 7, Oracle Linux 7 или Red Hat Enterprise Linux 7-/usr/lib/systemd/system/sdc.serviceдокумент. Например, если вы выполняете обновление с версии 3.0.0.0 на CentOS 6, Oracle Linux 6 или Red Hat Enterprise Linux 6, создайте резервную копию каталога данных сборщика данных и назовите его следующим образом:/var/lib/sdc3000. Создайте резервную копию файла конфигурации среды и назовите файл резервной копии следующим образом:sdcd-env-3000.sh.

4.3 Шаг 3 Установите новую версию

Установите новую версию пакета RPM. Для установки полного сборщика данных в качестве службы требуются привилегии root.

  1. Получите доступ к RPM-пакету Data Collector из одного из следующих мест:

Портал поддержки StreamSets (если у вас есть корпоративная учетная запись). Если у вас нет корпоративной учетной записи, страница архива StreamSets. 2. Загрузите пакет RPM для вашей операционной системы: Для CentOS 6, Oracle Linux 6 или Red Hat Enterprise Linux 6 загрузите пакет RPM EL6. Для CentOS 7, Oracle Linux 7 или Red Hat Enterprise Linux 7 загрузите пакет RPM EL7. 3. Используйте следующую команду, чтобы извлечь файлы в каталог, отличный от каталога предыдущей версии:tar xf streamsets-datacollector-<version>-<operating_system>-all-rpms.tarНапример, чтобы распаковать версию 3.22.0 в CentOS 7, используйте следующую команду:tar xf streamsets-datacollector-3.22.0-el7-all-rpms.tar4. Чтобы установить полный пакет RPM и все доступные библиотеки этапов, используйте следующую команду:yum localinstall streamsets*5. В качестве альтернативы, чтобы установить основной пакет RPM, а затем при необходимости установить отдельные библиотеки этапов, используйте следующие команды:yum localinstall streamsets-datacollector-<version>-1.noarch.rpmНапример, чтобы установить версию 3.22.0, используйте следующую команду:yum localinstall streamsets-datacollector-3.22.0-1.noarch.rpm

4.4 Шаг 4 Обновление переменных среды

Для всех переменных среды каждая установка RPM использует те же значения по умолчанию, что и предыдущая версия. Если в предыдущей версии использовались значения по умолчанию, настройте новую версию для использования тех же переменных среды.

Если в предыдущей версии для переменных среды использовались пользовательские значения, в новой версии необходимо выполнить такую ​​же настройку. Новая версия должна использовать те же каталоги данных, журналов и ресурсов, что и предыдущая версия.

  1. Откройте файл конфигурации среды, резервную копию которого вы создали в предыдущей версии.

Например, в CentOS 6, Oracle Linux 6 или Red Hat Enterprise Linux 6 откройте$SDC_DIST/libexec/sdcd-env-3000.shдокумент. 2. В новой версии Data Collector откройте файл конфигурации среды. Например, в CentOS 6, Oracle Linux 6 или Red Hat Enterprise Linux 6 откройте$SDC_DIST/libexec/sdcd-env.shдокумент. 3. Сравните предыдущую и новую версии файлов конфигурации среды и при необходимости обновите новые файлы теми же пользовательскими переменными среды.

4.5 Шаг 5 Обновить файл конфигурации

Новые версии сборщика данных могут содержать новые свойства и файлы конфигурации, необходимые для правильного запуска или работы сборщика данных.

Когда вы устанавливаете новый пакет RPM, файл конфигурации записывается в тот же каталог по умолчанию, что и в предыдущей версии./etc/sdc. Новая версия файла конфигурации переименована со следующим расширением:.rpmnew. Например, новая версия файла конфигурации Data Collector переименована вsdc.properties.rpmnew.

Чтобы обновить файл конфигурации, вы должны переименовать предыдущую и новую версии файла, а затем обновить новый файл с любыми пользовательскими значениями свойств, определенными в предыдущей версии.

**Примечание.** Если в предыдущей версии использовались пользовательские значения$SDC_CONF, новый файл конфигурации будет записан в каталог, отличный от каталога предыдущей версии, поэтому нет необходимости.rpmnewрасширение файла. В этом случае вместо переименования файла конфигурации вы должны обновить новый файл любыми пользовательскими значениями, определенными в предыдущей версии.

  1. работающий$SDC_CONFкаталог,/etc/sdc По умолчанию все предыдущие файлы конфигурации переименовываются, ноapplication-token.txtЗа исключением файлов с расширением.old.

Долженapplication-token.txtПредыдущая версия файла содержала токен проверки подлинности, необходимый этому экземпляру сборщика данных для выполнения аутентифицированных запросов к Control Hub. В результате вам потребуется сборщик данных, чтобы использовать предыдущую версию файла. 2. Удалите следующие расширения из всех новых файлов конфигурации, кроме файловapplication-token.txt:.rpmnew. 3. Сравните предыдущую и новую версии файла sdc.properties и при необходимости обновите новый файл с теми же значениями настраиваемых свойств. 4. Сравните предыдущую и новую версии оставшихся файлов и при необходимости обновите новые файлы с теми же значениями пользовательских свойств:

  • Соответствующий файл realm.properties в зависимости от используемого типа аутентификации.
  • Файл свойств хранилища учетных данных
  • email-password.txt
  • файл хранилища ключей
  • LDAP-архив
  • файл свойств log4j
  • файл политики безопасности
  • файл свойств дропбокса

Начиная с версии 2.7.0.0, большинство свойств конфигурации хранилища были перемещены в новый файл свойств хранилища учетных данных. Эти свойства используют одно и то же имя и добавляют“ credentialStore.vault.config”префикс. Если вы выполняете обновление с версии до 2.7.0.0, скопируйте все значения, настроенные в предыдущем файле свойств хранилища, в те же имена свойств в файле свойств хранилища учетных данных.

4.6 Шаг 6 Установите дополнительные библиотеки для основной установки

Если установлен основной пакет RPM, установите различные библиотеки стадий, необходимые для обновленного конвейера.

Инструкции по установке других библиотек этапов см. в разделе Установка пакетов RPM.

4.7 Шаг 7 Удаление предыдущей библиотеки

Удалите все библиотеки этапов, которые использовались предыдущими версиями сборщика данных.

  1. Выполните следующую команду, чтобы получить список всех библиотек этапов, используемых предыдущими версиями Data Collector:

rpm -qa | grep streamsets | grep "<version>"Например, чтобы получить список всех стадийных библиотек, используемых сборщиком данных версии 3.0.0.0, выполните следующую команду:rpm -qa | grep streamsets | grep "3.0.0.0"2. Выполните следующую команду, чтобы удалить все библиотеки этапов, используемые предыдущими версиями:yum remove <library package name> <library package name> ...имя пакета библиотеки, где — полное имя библиотеки, которую вы хотите удалить. Разделите каждое имя запятой. Не включайте пробелы в команду.

4.8 Шаг 8 Запустите новую версию Data Collector

Запустите новую версию Data Collector с помощью команды, требуемой вашей операционной системой:

  • Для CentOS 6, Oracle Linux 6 или Red Hat Enterprise Linux 6 используйте:

service sdc start

  • Для CentOS 7, Oracle Linux 7 или Red Hat Enterprise Linux 7 используйте:

systemctl start sdc

5. Резюме

Для поклонников StreamSets обновление обновления приветствуется, и я надеюсь, что это программное обеспечение будет становиться все более и более мощным!

О, о, о, кажется, чего-то не хватает, да! скачать.

链接:https://blog.csdn.net/codeex/article/details/115472127