Применение машинного обучения в эксплуатации и обслуживании ИТ

машинное обучение искусственный интеллект алгоритм Эксплуатация и техническое обслуживание
Что такое машинное обучение в ИТ-операциях?

Сегодня искусственный интеллект и машинное обучение проникли во все области, коренным образом изменили и повлияли на бизнес-модели, технические архитектуры и методологии этих областей. То же самое верно в отношении ИТ-операций и DevOps. Как группа ИТ-операций, мы действительно сосредоточены на том, как машинное обучение может обеспечить возможности управления событиями в реальном времени, которые могут помочь крупным компаниям улучшить качество обслуживания. Ключевым моментом здесь является раннее обнаружение аномалий, прежде чем пользователи заметят проблемы, тем самым уменьшая негативное влияние производственных инцидентов и сбоев.

Итак, что такое машинное обучение в ИТ-операциях?

Определение машинного обучения в вики выглядит следующим образом:

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

То есть при непрерывном выполнении задач накопление опыта приведет к повышению производительности компьютера.

В контексте эксплуатации и обслуживания ИТ это предложение можно выразить следующим образом: при непрерывной генерации событий эксплуатации и обслуживания (данные об эксплуатации и обслуживании) накопление результатов обработки приведет к улучшению качества обслуживания предприятия.

Мы ожидаем, что в этом процессе может быть установлена ​​поведенческая модель, которая, с одной стороны, может идентифицировать события на основе эмпирических данных, классифицировать и атрибутировать события. С другой стороны, он может динамически изменять условия события, что, в свою очередь, влияет на вероятность события. Например, контролируемое машинное обучение может записывать пользовательские оповещения и активность кластеров оповещений и соответствующим образом динамически корректировать правила оповещений. Это отличается от того, как это делают традиционные инструменты управления, когда вам нужно сначала настроить их, установить статические правила и ожидать, что они будут обращать внимание на события, которые, как вы знаете, произойдут заранее. Машинное обучение, с другой стороны, может иметь механизм обратной связи, который использует данные для постоянного создания и обновления поведенческих моделей, а не использует статическое поведение для поиска конкретных результатов.

Кроме того, машинное обучение также может проводить самостоятельные исследования без указания конкретного направления, обнаруживать скрытые характеристики событий и группировать связанные события на основе этого для обобщения векторов признаков. Этот неконтролируемый подход к машинному обучению может выявить неявные корреляции между событиями и событиями, а также между событиями и операционными результатами. Например, его можно использовать для анализа потоков событий и регистрации информации для поиска необычных кластеров сообщений. Впоследствии эти аномалии можно связать с результатом или событием эксплуатации и технического обслуживания, чтобы проанализировать потенциальную причину и суть.

Предпосылкой применения машинного обучения в эксплуатации и обслуживании является наличие данных об эксплуатации и обслуживании, сценариев приложений, разработки функций и моделей прогнозирования.

Данные по эксплуатации и техническому обслуживанию

В процессе эксплуатации и обслуживания будет генерироваться большой объем данных об эксплуатации и обслуживании, некоторые из которых можно использовать для описания рабочего состояния приложения или системы, некоторые — для меток, а некоторые — для опыта. Обратная связь. Эти огромные объемы многомерных данных являются основой машинного обучения для построения поведенческих моделей. Данные об эксплуатации и техническом обслуживании можно разделить на машинные данные, данные о передаче, прокси-данные и человеческие данные с точки зрения источников и использования.

машинные данные

Генерируется самим приложением или ИТ-системой, включая информацию журнала, данные мониторинга и т. д. Этот тип данных имеет самый большой объем и самое широкое измерение, и он может всесторонне описать рабочее состояние приложения, системы или кластера.

передача данных

Данные, передаваемые между различными системами по сети, могут включать в себя системные или бизнес-данные.

данные прокси

Данные, активно генерируемые некоторыми инструментами, такими как анализ кода, данные тестирования системы и т. д. Этот тип данных обычно генерируется определенным образом и имеет определенные характеристики и метки.

Человеческие данные

Данные, созданные людьми, такие как системные операции, отправленные рабочие задания, информация в QQ и WeChat и т. д. Такие данные можно использовать в качестве основы для эмпирических суждений и маркировки.

Сценарии эксплуатации и обслуживания

Сценарии также называются задачами. Суть машинного обучения заключается в использовании модели прогнозирования (линейная регрессия, логистическая регрессия, SVD, дерево решений и т. д.) и набора необработанных данных (данные об эксплуатации и обслуживании) для получения некоторых результатов прогнозирования. И этот результат прогнозирования является прогнозируемой ценностью задачи. Ниже я перечислил несколько сценариев, применимых к машинному обучению в области эксплуатации и обслуживания.

Удалить шум события

Десятки тысяч событий, происходящих в ИТ-операциях, полны шума и избыточности, с которыми просто невозможно справиться вручную. Машинное обучение может автоматизировать этот процесс, подобно фильтрации спама в электронной почте. С помощью машинного обучения можно значительно уменьшить шум событий, и для оповещения пользователей выбираются только реальные события.

атрибуция события

Машинное обучение может извлекать особенности событий в соответствии с предопределенными моделями и классифицировать их по различным сценариям событий, что удобно для понимания и обработки персоналом по эксплуатации и техническому обслуживанию.

выравнивание событий

После того, как машинное обучение классифицирует события по сценариям событий, оно может анализировать корреляцию между событиями и генерировать оповещения о событиях в соответствии с причинно-следственной логикой. Таким образом, сигналы тревоги о событиях, наблюдаемые эксплуатационным и обслуживающим персоналом, представляют собой обработанную информацию о результатах с логическими связями и значениями.

Обнаружение и обработка повторяющихся событий

Для прошлых событий и сигналов тревоги машинное обучение может автоматически изучать сценарии событий и стратегии обработки. Когда подобный инцидент происходит снова, машинное обучение может классифицировать инцидент и автоматически генерировать шаги обработки для эксплуатационного и обслуживающего персонала.

Классификация машин

Машинное обучение может автоматически классифицировать машины на основе машинных данных в соответствии с заранее определенными моделями. Таким образом, эксплуатационный и обслуживающий персонал может проводить соответствующий анализ и оптимизацию для различных классификаций.

разработка функций

В машинном обучении качество прогностической модели часто зависит от разработки признаков. Часто говорят, что данные и функции определяют верхний предел машинного обучения, а модели и алгоритмы лишь приближаются к этому верхнему пределу. Это показывает важность разработки признаков в практическом машинном обучении. На некоторых уровнях чем лучше используются функции, тем лучше результаты. В некоторых случаях мы можем даже использовать некоторые неоптимальные модели для обучения данных, и если выбор признаков будет удачным, мы все равно получим хорошие результаты.

В O&M выбор функций является предметной и инженерной проблемой.

Обычно мы можем следовать следующему процессу для создания функций:

  • Определение задачи: определите проблему, которую необходимо решить в соответствии с конкретным бизнесом.

  • Выбор данных: собирать данные, интегрировать данные

  • Предварительная обработка данных: форматирование данных, очистка, выборка

  • Создание признаков: создание и выбор признаков с использованием знаний предметной области и инженерных методов.

  • Вычислительная модель: уровень точности, улучшенный моделью по этому признаку, достигается путем расчета модели.

  • Онлайн-тест: определите, эффективна ли функция с помощью эффекта онлайн-теста.

прогностическая модель

Имея данные об эксплуатации и техническом обслуживании и сценарии приложений (определение бизнес-проблем), как создать модель прогнозирования, которая может максимально соответствовать данным, чтобы оптимизация целевой функции стала ключом к решению проблемы эксплуатации и обслуживания. .

В целом прогностические модели можно разделить на два подмножества: регрессионные и классификационные.

возвращение

Он изучает взаимосвязь между зависимыми и независимыми переменными, чтобы делать прогнозы о непрерывных переменных, таких как прогнозы максимальных температур в прогнозах погоды. При технической эксплуатации и техническом обслуживании мы можем прогнозировать значение мониторинга следующей точки, создавая модель регрессии, и обнаруживать аномальные данные, устанавливая динамические пороги.

Классификация

В отличие от регрессионных моделей, задача классификации состоит в том, чтобы присваивать метки дискретных классов конкретным наблюдениям в качестве прогнозируемых результатов. Возвращаясь к приведенному выше примеру: проблемой классификации в прогнозировании погоды может быть предсказание солнечных, дождливых или снежных дней.

Задачи классификации можно разделить на две основные подкатегории: обучение с учителем и обучение без учителя.

При обучении с учителем известны метки классов данных, используемых для построения модели классификации. Например, набор данных, отфильтрованный по спаму, будет содержать как спам, так и не спам. В задаче обучения с учителем мы уже знаем, что электронные письма в обучающем наборе являются либо спамом, либо нет. Мы будем использовать эту информацию для обучения нашей модели классификации новых электронных писем. В сценарии эксплуатации и обслуживания мы можем устранить шум сигналов тревоги, построив контролируемую классификационную модель.

Напротив, задачи неконтролируемого обучения имеют дело с немаркированными экземплярами, и эти классы должны быть выведены из неструктурированных наборов данных. Как правило, в неконтролируемом обучении используются методы кластеризации для группировки немаркированных образцов с использованием меры, основанной на определенном сходстве (или расстоянии). Например, при технической эксплуатации и обслуживании мы можем группировать машины, что удобно для эксплуатационного и ремонтного персонала, чтобы выяснить взаимосвязь между ними и провести соответствующий анализ и оптимизацию.

Суммировать

Традиционные методы эксплуатации и обслуживания в основном основаны на ручных и статических правилах, которые не могут адаптироваться к динамическим и сложным сценариям. Искусственный интеллект может позволить эксплуатации и техническому обслуживанию иметь возможности машинного обучения и алгоритмов, чтобы в сложных условиях динамически меняющихся сценариев можно было принимать эффективные и точные решения. Нам нужен концептуальный сдвиг от «на основе опыта экспертов» к «на основе машинного обучения», чтобы сделать Ops AI (этот AI относится к алгоритмическим ИТ), чтобы управлять эксплуатацией и обслуживанием в направлении эффективности.


С развитием технологий больших данных, а также применением и продвижением информационных продуктов, особенно в сфере промышленности и Интернета, компаниям становится все более и более эффективно использовать машинное обучение для увеличения доходов или снижения затрат. Среди них предотвращение мошенничества, ориентация на целевых клиентов электронной рекламы, рекомендации контента, создание более качественных автомобилей, ориентация на лучшие потенциальные рынки, оптимизация средств массовой информации для улучшения медицинских услуг и т. д. — все это демонстрирует универсальность и широкую применимость машинного обучения на основе больших данных.

Все мы знаем, что технология машинного обучения включает в себя не только продвинутые теоретические модели алгоритмов и рациональное использование данных, но и требует всесторонней инженерно-технической поддержки.Поэтому углубленное обучение за два дня до специальной встречи QCon 2017 Shanghai Station - всестороннее внедрение передовых моделей алгоритмов машинного обучения в отрасли и практики применения, а также быстрое развитие технологий вычислений в реальном времени для больших данных.Приглашенные нами отечественные передовые эксперты в области интернет-технологий также поделятся своим опытом в различных областях, чтобы показать вам, как использовать интеграцию [практики машинного обучения] и технологий [вычисления больших данных в реальном времени], чтобы возглавить развитие бизнеса и повести за собой всех. Станьте инженером по машинному обучению.

Углубленный тренинг проходил в отеле Shanghai Marriott Hotel Baohua с 15 по 16 октября, за 2 дня до конференции QCon.Тренинг включал 10 часов лекций и 2 часа вопросов и ответов, иммерсивное изучение популярных технологий, - углубленное обучение машинному обучению и знаниям в области крупномасштабных вычислений данных в реальном времени.

Количество учебных мест ограничено, нажмите«Прочитай исходный текст»Вы можете войти на официальный сайт конференции для получения дополнительной информации, нажмите на официальный сайт"зарегистрироваться», чтобы получить место для учебы и начать путь к тому, чтобы стать инженером по машинному обучению.