Эта статья была изначально создана "AI Frontline", оригинальная ссылка:Новое в Apache: платформа интеграции распределенных данных LinkedIn Gobblin
Автор | Абхишек Тивари
Переводчик|Nuka-Cola
Редактор | Эмили
Руководство по передовой ИИ:”LinkedIn предоставила Apache Foundation новый проект с открытым исходным кодом: Apache Gobblin! "
Следующее воспроизводится и переведено из инженерного блога LinkedIn:
Gobblin — это распределенная структура интеграции данных, предназначенная для упрощения множества общих задач в работе по интеграции больших данных, включая извлечение, репликацию, организацию и управление жизненным циклом потоков данных и пакетных экосистем.
Скорость, с которой вырос Гобблин, была феноменальной. С момента своего создания в декабре 2014 года Gobblin быстро перерабатывает огромные ресурсы больших данных в мире с открытым исходным кодом. В настоящее время он постепенно трансформировался из автономной среды приема данных, в основном основанной на Hadoop и работающей в режиме mapreduce, в комплексную и мощную экосистему с функциями, охватывающими среду выполнения, скорость передачи данных, масштаб, соединители и другие экосистемы. Различные измерения в области системы. улучшение.
LinkedIn имеет богатую историю участия в проектах с открытым исходным кодом и стала ключевым членом Apache Software Foundation (которой принадлежат такие проекты, как Kafka, Samza и Helix). Продолжая эту тенденцию, мы считаем, что Gobblin готов пополнить ряды семейства проектов Apache. Поэтому я предлагаю превратить Gobblin в проект-инкубатор Apache. Удивительно, но наше предложение было единогласно одобрено Программным комитетом инкубатора (сокращенно PMC), и в феврале 2017 года мы начали процесс преобразования программы инкубатора. С тех пор мы завершили необходимый внутренний процесс преобразования и предоставили код, а также официально начали путь разработки под знаменем Apache.
Почему выбирают Апач?
Apache Software Foundation (сокращенно ASF) — одна из самых влиятельных организаций с открытым исходным кодом в мире. Проект Apache поддерживает более 200 миллионов веб-сайтов (половина всех интернет-сайтов) и является (технической) основой многих наиболее ценных предприятий в мире. Gobblin был широко принят такими компаниями, как LinkedIn, Apple, Paypal, а также исследовательскими институтами, такими как CERN и Национальная лаборатория Sandia.Мы считаем, что как проект Apache, он будет продолжать поддерживать стабильную работу и долговечность, а также позволит растущему техническому сообществу to "Apache Road" продолжает способствовать этому.
Будущие перспективы Гоблина
Со времени нашего последнего сообщения в блоге Gobblin претерпел ряд серьезных изменений, вызванных вкладом как внутреннего, так и внешнего сообщества. Ниже мы расскажем о захватывающих улучшениях, которые появятся в Gobblin на этом этапе:
- Множественный режим исполнения: Gobblin теперь может работать в режимах Embedded, CLI, Standalone, Mapreduce и Cluster (голое железо, AWS и Yarn).
- Поддержка потоковой передачи и пакетной обработки: основной движок Gobblin теперь поддерживает возможности пакетной (ограниченной) и потоковой (неограниченной) обработки данных. В режиме пакетной обработки мы смогли работать с автономным, кластерным, Map-Reduce, Hive и Dali и планируем внедрить поддержку Spark в течение этого года. Кроме того, в этом году мы будем расширять собственные возможности потоковой передачи, включая подключение к таким системам, как Samza и Brooklin.
- Глобальные ограничения: Gobblin теперь поддерживает реализацию глобальных ограничений на ресурсы (например, квоты API) в любом режиме выполнения Gobblin. Это инфраструктурная возможность общего назначения, применимая к любой распределенной системе.
- Гоблин как услуга: Целью этого шага является создание решения PaaS (платформа как услуга) для управления данными, которое может инкапсулировать и унифицировать перемещение данных и обработку развертывания (будь то на основе Gobblin или нет) позади службы.
В будущем мы намерены и дальше способствовать быстрому росту проекта Gobblin, помогая сообществу продолжать расти и адаптироваться к «пути Apache».
С тех пор, как мы присоединились к программе Apache Incubator в начале прошлого года, мы увидели хороший импульс на этом фронте. Члены сообщества Apache Gobblin предложили, создали и инициировали ряд ключевых разработок в экосистеме Gobblin, в том числе:
- Возможности поддержки Kafka 10
- Усиление хранения состояния
- Усовершенствования схемы AWS и возможности автоматического масштабирования
- Предложение поддержки Месос
- Гоблин как предложение по улучшению сервиса
- Разнообразие новых разъемов
- Стабильность и улучшения пользовательского интерфейса администратора.
Мы также приглашаем вас испытать Gobblin и внести свой вклад в путь проекта Apache.
Заинтересованные читатели могут присоединиться к сообществу Apache Gobblin несколькими способами, в том числе вносить новые функции, пропагандировать техническую информацию или помогать сообществу обновлять документацию. Щелкните здесь, чтобы присоединиться к списку рассылки пользователей или разработчиков Gobblin. Вы также можете посетить канал Gitter здесь.
AI Frontline будет уделять пристальное внимание развитию Apache Gobblin в будущем.Если у вас есть последние новости, введение в использование или практический опыт работы с Apache Gobblin и вы хотите поделиться с другими людьми, отправьте электронное письмо по адресу natalie.cai@geekbang. org (пожалуйста, укажите это в теме письма) Замечание [Apache Gobblin]), приглашаем к дальнейшему общению.
Оригинальная ссылка:
Engineering.LinkedIn.com/blog/2018/0…
Для большего содержания сухих товаров вы можете обратить внимание на AI Frontline, ID:ai-front, фоновый ответ "AI", "TF", "Большие данные«Вы можете получить серию мини-книг и карт навыков в формате PDF «AI Frontline».