Предыстория AIOps/Анализ технических возможностей (Часть 1)

машинное обучение искусственный интеллект Эксплуатация и техническое обслуживание

Эта статья относительно длинная и разделена на три части: верхнюю, среднюю, нижнюю и серийную. Содержание:AIOpsАнализ фона/квалифицированных технических возможностей (вверху), распространенных заблуждений об AIOps (в центре), проблем и предложений (внизу).

предисловие

Я начал контактировать с областью ITOA около 5 или 6 лет назад, после первого контакта я обнаружил, что область имеет большой потенциал, и я искал возможности сделать что-то в этой области. Начал работать в этой сфере около трех лет назад, активно ища соответствие продукта рынку. За последние несколько лет, после общения с экспертами в отрасли, изучения отчетов, чтения документов и интервью с клиентами, я лично проанализировал соответствующие сценарии эксплуатации и обслуживания, провел пробное исследование отраслевых продуктов и объединил текущую ситуацию с работой в Китае. и обслуживания рынка, чтобы написать эту статью. У меня мало талантов и знаний, и у меня нет знаний и навыков Добро пожаловать в Пайчжуань.

задний план

Эволюция концепции: ITOA -> AIOps -> AIOps

Вернемся к 2013 году, к известному создателю Buzz Word.GartnerITOA упоминается в отчете, и определением в то время было аналитика операций ИТ, которая собирает, хранит и отображает массивные данные об эксплуатации и обслуживании ИТ с помощью технологий и средств обслуживания, а также проводит эффективные рассуждения и делает выводы.

Со временем, в 2016 году, Gartner обновила концепцию ITOA до AIOps, что первоначально означало алгоритмические ИТ-операции, то есть платформы, которые используют большие данные, современные методы машинного обучения и другие передовые методы аналитики, постоянно совершенствуют ИТ-операции (мониторинг, автоматизация и служба поддержки) функционирует прямо или косвенно посредством упреждающей, персонализированной и динамической информации. Платформы AIOps могут одновременно использовать несколько источников данных, несколько методов сбора данных, методы анализа в реальном времени, методы глубокого анализа и методы представления.

Поскольку ИИ становится все более и более популярным во многих областях, Gartner, наконец, не может сдержаться: в своем отчете за середину 2017 года он определил значение AIOps в соответствии с общественным мнением как «искусственный интеллект для ИТ-операций», который теперь используется всеми. Все говорят об интеллектуальной эксплуатации и обслуживании.

Менее чем через год, с шумихой вокруг ИИ и его внедрением в различные области, коллеги в сфере эксплуатации и обслуживания в основном рассматривают AIOps как неизбежное направление решения проблем эксплуатации и обслуживания в будущем.

Лично я считаю, что построение AIOps внутри предприятия за счет интеграции ИТ-данных действительно ломает канал данных, поддерживает мониторинг, автоматизацию и службу поддержки, чтобы ИТ-отдел мог лучше поддерживать бизнес, используя технологии больших данных и технологии машинного обучения. , отвечая на многие предыдущие вопросы. Вопросы, на которые невозможно ответить только с точки зрения бизнеса или только с точки зрения ИТ. Например, пользователи China Unicom, China Telecom, China Mobile и China Telecom, у которых коэффициент конверсии выше. AIOps ориентирован на создание ценности для бизнеса, непрерывное получение информации об ИТ-операциях и бизнес-операциях, предоставлениеDevOpsОбеспечьте непрерывную обратную связь, чтобы ускорить темпы цифровой трансформации предприятий в условиях растущей конкуренции на рынке.

В результате Gartner прогнозирует, что к 2022 году 40% крупных предприятий будут развертывать платформы AIOps.

Что касается концепции и ценности AIOps, Gartner уже сказал это очень четко. Это не является предметом этой статьи. Эта статья основана на моем понимании и пытается рассказать о недоразумениях, проблемах и некоторых недоразумениях, которым подвержен AIOps. генерировать в процессе посадки с реалистичной точки зрения внушение.


AIOps背景/所应具备技术能力分析(上) 技术分享 第1张



AIOps背景/所应具备技术能力分析(上) 技术分享 第2张


Анализ технических возможностей, которыми должен обладать AIOps

Лично AIOps — это, по сути, обновленная версия ITOA. Давайте посмотрим на определение Garnter возможностей ITOA в 2015 году.


AIOps背景/所应具备技术能力分析(上) 技术分享 第3张


  1. ML/SPDR: машинное обучение/обнаружение и распознавание статистических закономерностей;

  2. UTISI: индексация неструктурированного текста, поиск и вывод;

  3. Топологический анализ: топологический анализ;

  4. Поиск и анализ в многомерной базе данных: поиск и анализ в многомерной базе данных;

  5. Комплексная обработка событий операций: комплексная обработка событий эксплуатации и обслуживания;

Затем давайте сравним определение Gartner возможностей AIOps.

  • Управление историческими данными Управление историческими данными;

  • Управление потоковыми данными Управление потоковыми данными;

  • Интеграция данных журналов приема данных журнала;

  • Интеграция сетевых данных с проводным приемом данных;

  • Прием метрических данных Интеграция метрических данных;

  • Интеграция текстовых данных приема текста документа;

  • Автоматическое обнаружение и прогнозирование закономерностей;

  • обнаружение аномалий;

  • Анализ первопричины определения первопричины;

  • Локальная доставка обеспечивает частное развертывание;

  • Предоставляется Программным обеспечением как услугаSaaSСлужить;

За исключением двух последних методов доставки, я думаю, что AIOps имеет следующие изменения по сравнению с исходным ITOA:

Акцент на управлении историческими данными:

Это позволяет собирать, индексировать и непрерывно хранить данные журнала, сетевые данные, индикаторы и данные документов.Большая часть данных является неструктурированной или полуструктурированной, и объем данных накапливается быстро и в различных форматах, что очень соответствует характеристикам больших данных. Как мы все знаем, в новом раунде алгоритмов, представленных алгоритмами CNN и RNN, для обучения требуется большой объем стандартных данных, поэтому управление историческими данными стало первым направлением интеллектуальной эксплуатации и обслуживания.

Акцент на управлении потоковыми данными в реальном времени:

отKafkaПотоки, Flink, Storm и Spark Streaming, представленные технологиями обработки потоковых вычислений, стали важными компонентами основных платформ данных.Перед лицом массивных потоковых данных в реальном времени в ИТ-данных в некоторых сценариях данные сохраняются до преобразование, анализ в реальном времени, запрос, сбор, обработка и снижение нагрузки на базу данных (SQL или Nosql) стали очень разумным и обычным выбором, поэтому платформа AIOps содержит поток данных, что очень разумно.

Подчеркивает интеграцию нескольких источников данных:

На мой взгляд, это самая большая ценность платформы AIOps, потому что впервые способность Gartner интегрировать несколько источников данных вITOMВ области управления мы много лет занимаемся мониторингом эксплуатации и технического обслуживания, и, наконец, впервые мы можем задуматься о традиции мониторинга эксплуатации и технического обслуживания с точки зрения больших данных и управления ими.

Gartner упоминает здесь четыре типа данных: данные журнала, данные проводки, данные Metirc и текст документа. У меня лично есть оговорки по поводу такой классификации, и она кажется очень странной, особенно текст документа, который требует использования NLP, который в основном используется для открытия продуктов ITSM и анализа рабочих заданий ITSM. У меня есть сомнения в необходимости этого сценария и достигнутой рентабельности инвестиций. Я могу написать статью позже, чтобы объяснить конкретные причины более подробно.

На мой взгляд, если его отделить от типа макроса, его следует разделить следующим образом (следующее включает в себя некоторые из наших представлений о продуктах)

Данные машины:Это данные, генерируемые самой ИТ-системой, включая клиентов, серверы, сетевые устройства,БезопасностьЖурналы, созданные устройствами, приложениями и датчиками, а также данные о событиях в виде временных рядов, таких как SNMP, WMI и сценарии мониторинга (включая объем изменений памяти ЦП), имеют отметку времени. Здесь следует подчеркнуть, что машинные данные не равны данным журнала, поскольку данные индикатора содержат. В обычной отраслевой практике эти данные обычно Агентские программы, такие как LogStash, File beat,Zabbixагент и т. д. Если наши продукты LogInsight и Server Insight предназначены для этого типа данных.

Сетевые данные (проводные данные):Данные 2–7-уровневого сетевого протокола связи между системами могут отражать трафик через сетевой порт и выполнять глубокую проверку пакетов DPI (глубокую проверку пакетов), выборку заголовков пакетов Netflow и другой технический анализ. Порт 10 Гбит/с может генерировать до 100 ТБ данных в день и содержит много информации.Однако некоторые данные о производительности, безопасности и бизнес-анализе могут не передаваться по сети, а некоторые события не инициируются сетевой связью. поэтому их нельзя получить. Наш Network Insight в первую очередь ориентирован на эти данные, обеспечивая круглосуточный доступ 7 x 24 к критически важным приложениям. Часы кругового обзора.

Данные агента:в .NET, PHP,JavaПрограмма агента вставляется в байт-код, и такая информация, как вызовы функций и использование стека, подсчитывается из байт-кода, чтобы выполнять мониторинг на уровне кода. Application Insight нашей компании в основном создан для решения этой проблемы и может получить реальнуюПользовательский опытметрики производительности данных и приложений.

Данные зонда:Так называемый тест дозвона — это данные, полученные путем имитации пользовательских запросов и тестирования системы, таких как ICMP ping, HTTP GET и т. д., которые могут быть инициированы путем имитации клиентов из разных мест для выполнения сквозного полного пути. обнаружение в том числе сети и сервера Своевременное обнаружение проблем. Наша компанияCloud Test, Cloud Performance Test в основном производит эти данные, CT Наши продукты обеспечивают распределенный мониторинг доступности веб-сайтов в режиме 24/7 из точек коммутируемого доступа по всему миру. Среди них наш CPT предоставляет вам от сотен до миллионов полностью эластичных возможностей стресс-тестирования для получения производительности приложений в условиях высокой нагрузки.

Поскольку разработка технологии ИТ-мониторинга слишком сложна, приведенное выше разделение не обязательно правильно, но существенных упущений быть не должно.

Однако с точки зрения микротехнологий, независимо от источника данных, а только атрибутов самих данных, мы можем разделить их следующим образом:

Данные метрик

Само собой, описать конкретный объект в определенный момент времени, процент ЦП и т. д., данные индикатора и т. д.

Регистрация данных

Описание объекта - вещь дискретная.Например, приложение допустило ошибку и было выброшено NullPointerException.Лично я считаю, что Logging Data примерно равнозначно Event Data, так что на мой взгляд информация о тревоге тоже своего рода Logging Данные.

Данные цепочки вызовов (данные отслеживания)

Кажется, что не существует авторитетной парадигмы перевода слова Tracing Data. Некоторые люди переводят его в данные отслеживания, а некоторые переводят его в данные вызовов. Я стараюсь использовать слово Tracing как можно чаще. Отличительной особенностью Tracing является то, что он обрабатывает информацию в рамках одного запроса. Любые данные, метаданные информации привязаны к одной транзакции в системе. Например: процесс выполнения RPC для вызова удаленной службы, фактическая инструкция SQL-запроса, бизнес-идентификатор для HTTP-запроса. Восстановив информацию о трассировке, мы можем получить цепочку вызовов цепочки вызовов или количество вызовов дерева вызовов.


AIOps背景/所应具备技术能力分析(上) 技术分享 第4张


Пример дерева вызовов из официального OpenTracing.

В процессе практики многие бревна будут иметь порядковые номера.TraceID, span ID, ChildOf, FollowsFrom и другую связанную информацию, если они объединены вместе техническими средствами, эти журналы также можно рассматривать как трассировку.

Информация о трассировке привлекает все больше и больше внимания, потому что в распределенной среде данные трассировки необходимы для обнаружения неисправностей.

Поскольку трассировка немного сложнее, чем ведение журналов и метрики, если вы хотите узнать больше, вы можете обратиться к:

Dapper, крупномасштабная инфраструктура трассировки распределенных систем http://bigbully.github.io/Dapper-translation/

Документ с технической спецификацией Opentracing https://github.com/opentracing/specification Если мы превратим вышеуказанные типы данных в матрицу, мы можем получить такую ​​таблицу, которая может лучше прояснить корреляцию.

Например, наш продукт базового мониторинга Server Insight может собирать и обрабатывать данные индикаторов и журналы, но продукт базового мониторинга не обрабатывает данные трассировки, а нашApplication InsightПродукт может получать данные о времени отклика приложения (Metris), исключениях Java (ведение журнала), связь между топологией вызовов между приложениями и время отклика при вызове (трассировка) с виртуальной машины JVM посредством вставки кода.


AIOps背景/所应具备技术能力分析(上) 技术分享 第5张



AIOps背景/所应具备技术能力分析(上) 技术分享 第6张


Возвращаясь к определению возможностей Garnert AIOps, Tracing Data не входит в объем интеграции данных. Лично я считаю это неразумным, поскольку требуется анализ первопричин. Если вы не знаете взаимосвязь между сервисами и индикаторами, это на самом деле сложнее найти корень ошибки.

Алгоритмическая часть

На самом деле видно, что часть алгоритма, определенная Gartner в ITOA, такая как обнаружение шаблонов, машинное обучение и другие технические определения, плавно перешла в AIOPS.С одной стороны, мы видим, что у Gartner достаточно передовых технологий. глядя при определении ITOA, С другой стороны, видно, что скорость решения и развития связанных проблем алгоритма относительно медленная по сравнению с базовой архитектурой больших данных.

резюме

По сравнению с концепцией ITOA, концепция AIOPS более детализирована и информативна в части технологии больших данных, поэтому я считаю, что AIOps — это сначала большие данные, а потом уже алгоритмы.

OneAPMНедавно запущено новое поколение платформы AIOps I2. Вы можете связаться с нами в любое время, чтобы немедленно начать путь интеллектуальной эксплуатации и обслуживания вашей компании. нажмите, чтобы войтиОфициальный сайт AIOpsчтобы узнать больше информации.