---> * Исходный адрес:Why Is My Data Drifting?
- Оригинальный автор:Simona Maggio
- Перевод с:Программа перевода самородков
- Постоянная ссылка на эту статью:GitHub.com/rare earth/gold-no…
- Переводчик:chzh9311
- Корректор:samyu2000
Почему мои данные дрейфуют?
Модели машинного обучения (ML), применяемые в реальных проектах, часто оснащены системами для обнаружения дрейфа данных. Одной из них является система MLOps, которая может предупреждать при обнаружении дрейфа, но нам также необходимо знать, какие части данных изменились и какие аномалии произошли в модели, чтобы принять решение о дальнейших стратегиях.
В этой статье описывается, как применять дискриминационный классификатор домена для выявления чрезвычайно аномальных функций и образцов, а также демонстрируется, как использовать SHAP для анализа повреждения данных.
Сценарий повреждения данных
Есть много факторов, которые могут вызвать аномалии в полученных данных: зашумленный сбор данных, плохо работающие датчики, атаки с отравлением данных и так далее. Эти примеры искажения данных представляют собой разновидность ковариационного дрейфа, который могут эффективно фиксировать детекторы дрейфа, используемые для анализа распределений признаков. Чтобы просмотреть соответствующее содержание дрейфа данных, вы можете обратиться кэта статья[1].
Теперь представьте себя специалистом по данным, и вы работаете над знаменитойнабор данных для взрослых, пытаясь предсказать, будет ли человек зарабатывать более 50 000 долларов в год на основе такой информации, как возраст, образование, работа и т. д.
Мы выбрали случайный сегмент в этом наборе данных в качестве нашего обучающего набора и обучили предсказатель на этом обучающем наборе для этой задачи бинарной классификации. Мы довольны этой обученной моделью и внедряем ее в приложение одновременно с системой обнаружения дрейфа.
Остальная часть этого набора данных для взрослых является реальными достоверными данными. К сожалению, часть этого набора данных целевого домена повреждена.
Чтобы продемонстрировать, мы загрязняем 25% набора данных целевого домена с постоянной заменой. Это случайным образом искажает несколько функций, а именноrace(Раса),marital_status(семейное положение),fnlwgt(конечный вес) иeducation_num(Индекс образования). Числовые признаки искажаются, заменяя их медианой распределения признаков, а категориальные признаки искажаются, заменяя их фиксированным случайным классом.
В этом примере эти четыре функции для 25 % выборок целевых доменов заменены константами, показанными на рисунке 1. Детекторы дрейфа, используемые для обнаружения изменений данных, корректно били тревогу. Тогда что?
Как найти самые дрейфующие образцы?
Нам может помочь доменный дискриминационный классификатор. Эта вторичная модель машинного обучения обучается с использованием половины исходного обучающего набора и половины набора данных нового целевого домена, чтобы предсказать принадлежность выборкиисходный доменвсе ещеновый домен.
в видеэта статьяКак подробно описано в [2], классификатор предметной области на самом деле является очень популярным детектором дрейфа. Таким образом, преимущество его использования заключается в том, что он может не только обнаруживать изменения данных, но и выявлять аномальные образцы. Если в вашей системе наблюдения уже есть предварительно обученный классификатор, у вас также есть детектор аномалий.
В качестве первого предположения мы можем использовать классификатор предметной области, заданныйновый доменпоказатель вероятности как егоОценка дрейфа, и отметить k образцов с наиболее значительными аномалиями. Но если признаков сотни, сложнее выяснить, какие из извлеченных образцов имеют наиболее значительные аномалии. Нам нужно определить наиболее дрейфующие функции, чтобы сузить поиск.
Для этого можно сделать некоторые допущения, например, предположить, что признаки, наиболее важные для дискриминанта предметной области, более тесно связаны с аномалиями. В этом случае мы можем использовать меру важности признаков, которая должна подходить для этого классификатора предметной области, например, для классификатора случайного леса в качестве меры можно использовать среднее сокращение примесей (MDI).
В области машинного обучения существует множество показателей важности признаков, и эти стандарты имеют свои ограничения. Это также одна из причин, по которой значение Шепли вводится через SHAP в его обучение. Если вы хотите узнать больше о ценности Шепли и SHAP, вы можете взглянуть на эту довольно хорошую книгу.«Интерпретируемое машинное обучение»[3].
объяснить дрейф
использоватьИнструментарий SHAP[4], мы можем интерпретировать вывод классификатора предметной области, особенно для данного образца, различные функции, к которым он принадлежитновый доменвероятность вклада. Глядя на значения Шепли образцов с наибольшим количеством аномалий, мы можем увидеть, какие факторы заставляют классификатор доменов классифицировать образец как аномальный, и, таким образом, обнаружить характеристики дрейфа.
На рисунке 2 мы сравниваем важность функции классификатора предметной области и важность функции SHAP (среднее значение абсолютных значений всех значений Шепли для функции) для набора данных для взрослых. Мы обнаружили, что этим функциям присвоены разные ранги, при этом SHAP правильно фиксирует 3 наиболее поврежденных функции. Выбор меры важности влияет на идентификацию признаков дрейфа, поэтому необходимо выбрать более надежный метод, чем примесный.
Однако вместо случайного выбора 3 наиболее дрейфующих признаков значения важности признаков сравниваются со значениями важности признаков (обратными от общего числа признаков), которые равномерно распределены в неопознанном домене. После этого мы можем определить эти характерные черты. Как показано на рисунке 3 ниже,race,marital_status,иfnlwgtЭто выделяется.
Если мы нарисуем значения Шепли для всех выборок набора данных целевого домена на рисунке 4 и отобразим действительно дрейфующие выборки красным цветом, мы обнаружим, что значения Шепли могут четко показывать аномальные выборки и аномальные характеристики. В каждой строке графика ряд точек используется для представления одной и той же выборки целевого домена, а абсцисса этих точек представляет собой значение Шепли, соответствующее признаку, отмеченному в левой части строки. Здесь мы можем наблюдать ранее выделенные аномальные особенности (race,marital_status,иfnlwgt), и последний идентифицированный элемент дрейфаeducation_num, с бимодальным распределением.
Опираясь на характеристику эффективности значения Шепли, оценка предсказания классификатора предметной области для выборки определяется как сумма значений Шепли всех его признаков. Таким образом, из графика, показанного на рис. 4, мы можем сделать вывод, что неповрежденные элементы мало (но не совсем не влияют) влияют нановый доменПрогнозы классификации, в конце концов, их значения Шепли сосредоточены вокруг 0, что особенно важно для этих выбросов.
Прямая визуализация образцов дрейфа
Мы собираемся начать собирать и использовать эти инструменты, чтобы помечать подозрительные образцы и необычные функции.
Во-первых, давайте взглянем на 10 наиболее характерных особенностей и образцов аномалий, возможно, мы сумеем интуитивно понять, что происходит.
В данном конкретном случае мы могли легко определить (и счесть подозрительным), что некоторые собственные значения всех полученных отсчетов постоянны, но это может не быть общим правилом. Однако, если дрейф происходит на уровне распределения, например, при смещении выборки, рассмотрение отдельных выборок не столь полезно. Они могут быть просто обычными образцами в подмножестве исходного набора данных, и поэтому технически их нельзя считать аномалиями. Но так как мы не можем знать заранее, с каким дрейфом мы сталкиваемся, все же неплохо посмотреть на отдельные образцы!
На рис. 6 показан график кривых решений SHAP, где каждая кривая представляет аномальную выборку. Этот тип графика может помочь нам определить дрейф. Мы также можем видеть, что кривая смещается в сторону более высоких показателей дрейфа классификатора предметной области.
В этом случае все аномалии вызваны одним и тем же поврежденным элементом, но для набора выборок, дрейфующих по разным причинам, график решений SHAP может эффективно показать эти тенденции.
Конечно, стандартный анализ распределения функций по-прежнему важен, особенно когда мы можем сосредоточиться на наиболее подозрительных функциях. На рисунке 7 мы изображаем распределения признаков дрейфа для 100 наиболее аномальных выборок красным цветом и сравниваем их с распределением исходного обучающего набора. Дискриминантный анализ больше соответствует человеческой интуиции, поэтому он является простым средством оценки дрейфа в новых наборах данных. В этом случае, взглянув на распределение признаков, мы сразу увидим, что значения признаков постоянны, что не является желаемым распределением.
Суммировать
Когда мы применяем модель к неожиданным изменениям данных и хотим контролировать модель, мы можем использовать детекторы дрейфа, такие как классификаторы доменов, для выявления аномальных выборок при обнаружении дрейфа. Эта последовательность шагов может быть организована в конвейер анализа дрейфа путем маркировки проб с наибольшим дрейфом и их глубокого исследования. Аномалии могут быть помечены благодаря мере важности классификатора домена.
Однако имейте в виду возможные разрывы в мере важности функций, и если у вас больше вычислительных ресурсов, рассмотрите возможность использования SHAP для достижения более точной оценки связи, связанной с дрейфом. Наконец, сочетание полезного инструмента визуализации SHAP с дискриминантным анализом распределения характеристик дрейфа, заданных по отношению к недрейфованному распределению, может упростить и повысить эффективность анализа дрейфа.
Ссылаться на
[2] Классификатор предметной области — на пути к надежным MLOps с помощью детекторов дрейфа
[3] Ценности Шепли — Интерпретируемое машинное обучение — К. Молнар
[4] SHapley Additive exPlanations package
Если вы обнаружите ошибки в переводе или в других областях, требующих доработки, добро пожаловать наПрограмма перевода самородковВы также можете получить соответствующие бонусные баллы за доработку перевода и PR. начало статьиПостоянная ссылка на эту статьюЭто ссылка MarkDown этой статьи на GitHub.
Программа перевода самородковэто сообщество, которое переводит высококачественные технические статьи из Интернета сНаггетсДелитесь статьями на английском языке на . Охват контентаAndroid,iOS,внешний интерфейс,задняя часть,блокчейн,продукт,дизайн,искусственный интеллектЕсли вы хотите видеть более качественные переводы, пожалуйста, продолжайте обращать вниманиеПрограмма перевода самородков,официальный Вейбо,Знай колонку.