Эта статья относительно длинная и разделена на три части: верхнюю, среднюю, нижнюю и серийную. Содержание:AIOpsАнализ фона/квалифицированных технических возможностей (вверху), распространенных заблуждений об AIOps (в центре), проблем и предложений (внизу).
предисловие
Я начал контактировать с областью ITOA около 5 или 6 лет назад, после первого контакта я обнаружил, что область имеет большой потенциал, и я искал возможности сделать что-то в этой области. Начал работать в этой сфере около трех лет назад, активно ища соответствие продукта рынку. За последние несколько лет, после общения с экспертами в отрасли, изучения отчетов, чтения документов и интервью с клиентами, я лично проанализировал соответствующие сценарии эксплуатации и обслуживания, провел пробное исследование отраслевых продуктов и объединил текущую ситуацию с работой в Китае. и обслуживания рынка, чтобы написать эту статью. У меня мало талантов и знаний, и у меня нет знаний и навыков Добро пожаловать в Пайчжуань.
задний план
Эволюция концепции: ITOA -> AIOps -> AIOps
Вернемся к 2013 году, к известному создателю Buzz Word.GartnerITOA упоминается в отчете, и определением в то время было аналитика операций ИТ, которая собирает, хранит и отображает массивные данные об эксплуатации и обслуживании ИТ с помощью технологий и средств обслуживания, а также проводит эффективные рассуждения и делает выводы.
Со временем, в 2016 году, Gartner обновила концепцию ITOA до AIOps, что первоначально означало алгоритмические ИТ-операции, то есть платформы, которые используют большие данные, современные методы машинного обучения и другие передовые методы аналитики, постоянно совершенствуют ИТ-операции (мониторинг, автоматизация и служба поддержки) функционирует прямо или косвенно посредством упреждающей, персонализированной и динамической информации. Платформы AIOps могут одновременно использовать несколько источников данных, несколько методов сбора данных, методы анализа в реальном времени, методы глубокого анализа и методы представления.
Поскольку ИИ становится все более и более популярным во многих областях, Gartner, наконец, не может сдержаться: в своем отчете за середину 2017 года он определил значение AIOps в соответствии с общественным мнением как «искусственный интеллект для ИТ-операций», который теперь используется всеми. Все говорят об интеллектуальной эксплуатации и обслуживании.
Менее чем через год, с шумихой вокруг ИИ и его внедрением в различные области, коллеги в сфере эксплуатации и обслуживания в основном рассматривают AIOps как неизбежное направление решения проблем эксплуатации и обслуживания в будущем.
Лично я считаю, что построение AIOps внутри предприятия за счет интеграции ИТ-данных действительно ломает канал данных, поддерживает мониторинг, автоматизацию и службу поддержки, чтобы ИТ-отдел мог лучше поддерживать бизнес, используя технологии больших данных и технологии машинного обучения. , отвечая на многие предыдущие вопросы. Вопросы, на которые невозможно ответить только с точки зрения бизнеса или только с точки зрения ИТ. Например, пользователи China Unicom, China Telecom, China Mobile и China Telecom, у которых коэффициент конверсии выше. AIOps ориентирован на создание ценности для бизнеса, непрерывное получение информации об ИТ-операциях и бизнес-операциях, предоставлениеDevOpsОбеспечьте непрерывную обратную связь, чтобы ускорить темпы цифровой трансформации предприятий в условиях растущей конкуренции на рынке.
В результате Gartner прогнозирует, что к 2022 году 40% крупных предприятий будут развертывать платформы AIOps.
Что касается концепции и ценности AIOps, Gartner уже сказал это очень четко. Это не является предметом этой статьи. Эта статья основана на моем понимании и пытается рассказать о недоразумениях, проблемах и некоторых недоразумениях, которым подвержен AIOps. генерировать в процессе посадки с реалистичной точки зрения внушение.
Анализ технических возможностей, которыми должен обладать AIOps
Лично AIOps — это, по сути, обновленная версия ITOA. Давайте посмотрим на определение Garnter возможностей ITOA в 2015 году.
-
ML/SPDR: машинное обучение/обнаружение и распознавание статистических закономерностей;
-
UTISI: индексация неструктурированного текста, поиск и вывод;
-
Топологический анализ: топологический анализ;
-
Поиск и анализ в многомерной базе данных: поиск и анализ в многомерной базе данных;
-
Комплексная обработка событий операций: комплексная обработка событий эксплуатации и обслуживания;
Затем давайте сравним определение Gartner возможностей AIOps.
-
Управление историческими данными Управление историческими данными;
-
Управление потоковыми данными Управление потоковыми данными;
-
Интеграция данных журналов приема данных журнала;
-
Интеграция сетевых данных с проводным приемом данных;
-
Прием метрических данных Интеграция метрических данных;
-
Интеграция текстовых данных приема текста документа;
-
Автоматическое обнаружение и прогнозирование закономерностей;
-
обнаружение аномалий;
-
Анализ первопричины определения первопричины;
-
Локальная доставка обеспечивает частное развертывание;
-
Предоставляется Программным обеспечением как услугаSaaSСлужить;
За исключением двух последних методов доставки, я думаю, что AIOps имеет следующие изменения по сравнению с исходным ITOA:
Акцент на управлении историческими данными:
Это позволяет собирать, индексировать и непрерывно хранить данные журнала, сетевые данные, индикаторы и данные документов.Большая часть данных является неструктурированной или полуструктурированной, и объем данных накапливается быстро и в различных форматах, что очень соответствует характеристикам больших данных. Как мы все знаем, в новом раунде алгоритмов, представленных алгоритмами CNN и RNN, для обучения требуется большой объем стандартных данных, поэтому управление историческими данными стало первым направлением интеллектуальной эксплуатации и обслуживания.
Акцент на управлении потоковыми данными в реальном времени:
отKafkaПотоки, Flink, Storm и Spark Streaming, представленные технологиями обработки потоковых вычислений, стали важными компонентами основных платформ данных.Перед лицом массивных потоковых данных в реальном времени в ИТ-данных в некоторых сценариях данные сохраняются до преобразование, анализ в реальном времени, запрос, сбор, обработка и снижение нагрузки на базу данных (SQL или Nosql) стали очень разумным и обычным выбором, поэтому платформа AIOps содержит поток данных, что очень разумно.
Подчеркивает интеграцию нескольких источников данных:
На мой взгляд, это самая большая ценность платформы AIOps, потому что впервые способность Gartner интегрировать несколько источников данных вITOMВ области управления мы много лет занимаемся мониторингом эксплуатации и технического обслуживания, и, наконец, впервые мы можем задуматься о традиции мониторинга эксплуатации и технического обслуживания с точки зрения больших данных и управления ими.
Gartner упоминает здесь четыре типа данных: данные журнала, данные проводки, данные Metirc и текст документа. У меня лично есть оговорки по поводу такой классификации, и она кажется очень странной, особенно текст документа, который требует использования NLP, который в основном используется для открытия продуктов ITSM и анализа рабочих заданий ITSM. У меня есть сомнения в необходимости этого сценария и достигнутой рентабельности инвестиций. Я могу написать статью позже, чтобы объяснить конкретные причины более подробно.
На мой взгляд, если его отделить от типа макроса, его следует разделить следующим образом (следующее включает в себя некоторые из наших представлений о продуктах)
Данные машины:Это данные, генерируемые самой ИТ-системой, включая клиентов, серверы, сетевые устройства,БезопасностьЖурналы, созданные устройствами, приложениями и датчиками, а также данные о событиях в виде временных рядов, таких как SNMP, WMI и сценарии мониторинга (включая объем изменений памяти ЦП), имеют отметку времени. Здесь следует подчеркнуть, что машинные данные не равны данным журнала, поскольку данные индикатора содержат. В обычной отраслевой практике эти данные обычно Агентские программы, такие как LogStash, File beat,Zabbixагент и т. д. Если наши продукты LogInsight и Server Insight предназначены для этого типа данных.
Сетевые данные (проводные данные):Данные 2–7-уровневого сетевого протокола связи между системами могут отражать трафик через сетевой порт и выполнять глубокую проверку пакетов DPI (глубокую проверку пакетов), выборку заголовков пакетов Netflow и другой технический анализ. Порт 10 Гбит/с может генерировать до 100 ТБ данных в день и содержит много информации.Однако некоторые данные о производительности, безопасности и бизнес-анализе могут не передаваться по сети, а некоторые события не инициируются сетевой связью. поэтому их нельзя получить. Наш Network Insight в первую очередь ориентирован на эти данные, обеспечивая круглосуточный доступ 7 x 24 к критически важным приложениям. Часы кругового обзора.
Данные агента:в .NET, PHP,JavaПрограмма агента вставляется в байт-код, и такая информация, как вызовы функций и использование стека, подсчитывается из байт-кода, чтобы выполнять мониторинг на уровне кода. Application Insight нашей компании в основном создан для решения этой проблемы и может получить реальнуюПользовательский опытметрики производительности данных и приложений.
Данные зонда:Так называемый тест дозвона — это данные, полученные путем имитации пользовательских запросов и тестирования системы, таких как ICMP ping, HTTP GET и т. д., которые могут быть инициированы путем имитации клиентов из разных мест для выполнения сквозного полного пути. обнаружение в том числе сети и сервера Своевременное обнаружение проблем. Наша компанияCloud Test, Cloud Performance Test в основном производит эти данные, CT Наши продукты обеспечивают распределенный мониторинг доступности веб-сайтов в режиме 24/7 из точек коммутируемого доступа по всему миру. Среди них наш CPT предоставляет вам от сотен до миллионов полностью эластичных возможностей стресс-тестирования для получения производительности приложений в условиях высокой нагрузки.
Поскольку разработка технологии ИТ-мониторинга слишком сложна, приведенное выше разделение не обязательно правильно, но существенных упущений быть не должно.
Однако с точки зрения микротехнологий, независимо от источника данных, а только атрибутов самих данных, мы можем разделить их следующим образом:
Данные метрик
Само собой, описать конкретный объект в определенный момент времени, процент ЦП и т. д., данные индикатора и т. д.
Регистрация данных
Описание объекта - вещь дискретная.Например, приложение допустило ошибку и было выброшено NullPointerException.Лично я считаю, что Logging Data примерно равнозначно Event Data, так что на мой взгляд информация о тревоге тоже своего рода Logging Данные.
Данные цепочки вызовов (данные отслеживания)
Кажется, что не существует авторитетной парадигмы перевода слова Tracing Data. Некоторые люди переводят его в данные отслеживания, а некоторые переводят его в данные вызовов. Я стараюсь использовать слово Tracing как можно чаще. Отличительной особенностью Tracing является то, что он обрабатывает информацию в рамках одного запроса. Любые данные, метаданные информации привязаны к одной транзакции в системе. Например: процесс выполнения RPC для вызова удаленной службы, фактическая инструкция SQL-запроса, бизнес-идентификатор для HTTP-запроса. Восстановив информацию о трассировке, мы можем получить цепочку вызовов цепочки вызовов или количество вызовов дерева вызовов.
Пример дерева вызовов из официального OpenTracing.
В процессе практики многие бревна будут иметь порядковые номера.TraceID, span ID, ChildOf, FollowsFrom и другую связанную информацию, если они объединены вместе техническими средствами, эти журналы также можно рассматривать как трассировку.
Информация о трассировке привлекает все больше и больше внимания, потому что в распределенной среде данные трассировки необходимы для обнаружения неисправностей.
Поскольку трассировка немного сложнее, чем ведение журналов и метрики, если вы хотите узнать больше, вы можете обратиться к:
Dapper, крупномасштабная инфраструктура трассировки распределенных систем http://bigbully.github.io/Dapper-translation/
Документ с технической спецификацией Opentracing https://github.com/opentracing/specification Если мы превратим вышеуказанные типы данных в матрицу, мы можем получить такую таблицу, которая может лучше прояснить корреляцию.
Например, наш продукт базового мониторинга Server Insight может собирать и обрабатывать данные индикаторов и журналы, но продукт базового мониторинга не обрабатывает данные трассировки, а нашApplication InsightПродукт может получать данные о времени отклика приложения (Metris), исключениях Java (ведение журнала), связь между топологией вызовов между приложениями и время отклика при вызове (трассировка) с виртуальной машины JVM посредством вставки кода.
Возвращаясь к определению возможностей Garnert AIOps, Tracing Data не входит в объем интеграции данных. Лично я считаю это неразумным, поскольку требуется анализ первопричин. Если вы не знаете взаимосвязь между сервисами и индикаторами, это на самом деле сложнее найти корень ошибки.
Алгоритмическая часть
На самом деле видно, что часть алгоритма, определенная Gartner в ITOA, такая как обнаружение шаблонов, машинное обучение и другие технические определения, плавно перешла в AIOPS.С одной стороны, мы видим, что у Gartner достаточно передовых технологий. глядя при определении ITOA, С другой стороны, видно, что скорость решения и развития связанных проблем алгоритма относительно медленная по сравнению с базовой архитектурой больших данных.
резюме
По сравнению с концепцией ITOA, концепция AIOPS более детализирована и информативна в части технологии больших данных, поэтому я считаю, что AIOps — это сначала большие данные, а потом уже алгоритмы.
OneAPMНедавно запущено новое поколение платформы AIOps I2. Вы можете связаться с нами в любое время, чтобы немедленно начать путь интеллектуальной эксплуатации и обслуживания вашей компании. нажмите, чтобы войтиОфициальный сайт AIOpsчтобы узнать больше информации.