---> * Исходный адрес:Why Is My Data Drifting?

Оригинальный автор:Simona Maggio

Перевод с:Программа перевода самородков

Постоянная ссылка на эту статью:GitHub.com/rare earth/gold-no…

Переводчик:chzh9311

Корректор:samyu2000

Почему мои данные дрейфуют?

Модели машинного обучения (ML), применяемые в реальных проектах, часто оснащены системами для обнаружения дрейфа данных. Одной из них является система MLOps, которая может предупреждать при обнаружении дрейфа, но нам также необходимо знать, какие части данных изменились и какие аномалии произошли в модели, чтобы принять решение о дальнейших стратегиях.

В этой статье описывается, как применять дискриминационный классификатор домена для выявления чрезвычайно аномальных функций и образцов, а также демонстрируется, как использовать SHAP для анализа повреждения данных.

异常的落叶 (由Unsplash 的摄影师 [Jeremy Thomas](https://unsplash.com/@jeremythomasphoto?utm_source=medium&utm_medium=referral 拍摄 )

Сценарий повреждения данных

Есть много факторов, которые могут вызвать аномалии в полученных данных: зашумленный сбор данных, плохо работающие датчики, атаки с отравлением данных и так далее. Эти примеры искажения данных представляют собой разновидность ковариационного дрейфа, который могут эффективно фиксировать детекторы дрейфа, используемые для анализа распределений признаков. Чтобы просмотреть соответствующее содержание дрейфа данных, вы можете обратиться кэта статья[1].

Теперь представьте себя специалистом по данным, и вы работаете над знаменитойнабор данных для взрослых, пытаясь предсказать, будет ли человек зарабатывать более 50 000 долларов в год на основе такой информации, как возраст, образование, работа и т. д.

Мы выбрали случайный сегмент в этом наборе данных в качестве нашего обучающего набора и обучили предсказатель на этом обучающем наборе для этой задачи бинарной классификации. Мы довольны этой обученной моделью и внедряем ее в приложение одновременно с системой обнаружения дрейфа.

Остальная часть этого набора данных для взрослых является реальными достоверными данными. К сожалению, часть этого набора данных целевого домена повреждена.

图 1：用于污染目标域数据集 25% 数据的常量值

Чтобы продемонстрировать, мы загрязняем 25% набора данных целевого домена с постоянной заменой. Это случайным образом искажает несколько функций, а именноrace(Раса),marital_status(семейное положение),fnlwgt(конечный вес) иeducation_num(Индекс образования). Числовые признаки искажаются, заменяя их медианой распределения признаков, а категориальные признаки искажаются, заменяя их фиксированным случайным классом.

В этом примере эти четыре функции для 25 % выборок целевых доменов заменены константами, показанными на рисунке 1. Детекторы дрейфа, используемые для обнаружения изменений данных, корректно били тревогу. Тогда что?

Как найти самые дрейфующие образцы?

Нам может помочь доменный дискриминационный классификатор. Эта вторичная модель машинного обучения обучается с использованием половины исходного обучающего набора и половины набора данных нового целевого домена, чтобы предсказать принадлежность выборкиисходный доменвсе ещеновый домен.

в видеэта статьяКак подробно описано в [2], классификатор предметной области на самом деле является очень популярным детектором дрейфа. Таким образом, преимущество его использования заключается в том, что он может не только обнаруживать изменения данных, но и выявлять аномальные образцы. Если в вашей системе наблюдения уже есть предварительно обученный классификатор, у вас также есть детектор аномалий.

В качестве первого предположения мы можем использовать классификатор предметной области, заданныйновый доменпоказатель вероятности как егоОценка дрейфа, и отметить k образцов с наиболее значительными аномалиями. Но если признаков сотни, сложнее выяснить, какие из извлеченных образцов имеют наиболее значительные аномалии. Нам нужно определить наиболее дрейфующие функции, чтобы сузить поиск.

Для этого можно сделать некоторые допущения, например, предположить, что признаки, наиболее важные для дискриминанта предметной области, более тесно связаны с аномалиями. В этом случае мы можем использовать меру важности признаков, которая должна подходить для этого классификатора предметной области, например, для классификатора случайного леса в качестве меры можно использовать среднее сокращение примесей (MDI).

В области машинного обучения существует множество показателей важности признаков, и эти стандарты имеют свои ограничения. Это также одна из причин, по которой значение Шепли вводится через SHAP в его обучение. Если вы хотите узнать больше о ценности Шепли и SHAP, вы можете взглянуть на эту довольно хорошую книгу.«Интерпретируемое машинное обучение»[3].

объяснить дрейф

использоватьИнструментарий SHAP[4], мы можем интерпретировать вывод классификатора предметной области, особенно для данного образца, различные функции, к которым он принадлежитновый доменвероятность вклада. Глядя на значения Шепли образцов с наибольшим количеством аномалий, мы можем увидеть, какие факторы заставляют классификатор доменов классифицировать образец как аномальный, и, таким образом, обнаружить характеристики дрейфа.

图 2: 特征重要性等级的比较：等级数值越低，对应的特征漂移更严重。SHAP 等级是基于每一个特征在全部测试集内的平均绝对沙普利值计算的。域分类器的等级则是由特征的平均不纯度减少量得到的。

На рисунке 2 мы сравниваем важность функции классификатора предметной области и важность функции SHAP (среднее значение абсолютных значений всех значений Шепли для функции) для набора данных для взрослых. Мы обнаружили, что этим функциям присвоены разные ранги, при этом SHAP правильно фиксирует 3 наиболее поврежденных функции. Выбор меры важности влияет на идентификацию признаков дрейфа, поэтому необходимо выбрать более надежный метод, чем примесный.

Однако вместо случайного выбора 3 наиболее дрейфующих признаков значения важности признаков сравниваются со значениями важности признаков (обратными от общего числа признаков), которые равномерно распределены в неопознанном домене. После этого мы можем определить эти характерные черты. Как показано на рисунке 3 ниже,race,marital_status,иfnlwgtЭто выделяется.

图 3: 目标域数据集内每个特征的平均绝对沙普利值。重要性值高于平均分布重要性（黑色水平线）的特征很有可能是发生漂移的。

Если мы нарисуем значения Шепли для всех выборок набора данных целевого домена на рисунке 4 и отобразим действительно дрейфующие выборки красным цветом, мы обнаружим, что значения Шепли могут четко показывать аномальные выборки и аномальные характеристики. В каждой строке графика ряд точек используется для представления одной и той же выборки целевого домена, а абсцисса этих точек представляет собой значение Шепли, соответствующее признаку, отмеченному в левой части строки. Здесь мы можем наблюдать ранее выделенные аномальные особенности (race,marital_status,иfnlwgt), и последний идентифицированный элемент дрейфаeducation_num, с бимодальным распределением.

图 4: 目标域样本特征的 SHAP 总结图表。在每一行，同样的目标域样本被表示成一系列的点，而这些点的横坐标为行左边标示的特征对应的沙普利值。颜色代表样本异常（红色）还是正常（蓝色）

Опираясь на характеристику эффективности значения Шепли, оценка предсказания классификатора предметной области для выборки определяется как сумма значений Шепли всех его признаков. Таким образом, из графика, показанного на рис. 4, мы можем сделать вывод, что неповрежденные элементы мало (но не совсем не влияют) влияют нановый доменПрогнозы классификации, в конце концов, их значения Шепли сосредоточены вокруг 0, что особенно важно для этих выбросов.

Прямая визуализация образцов дрейфа

Мы собираемся начать собирать и использовать эти инструменты, чтобы помечать подозрительные образцы и необычные функции.

Во-первых, давайте взглянем на 10 наиболее характерных особенностей и образцов аномалий, возможно, мы сумеем интуитивно понять, что происходит.

图 5: 根据域分类器给出的属于新域的概率分数排列得到的 10 个最显著的样本。列是按照基于 SHAP 的特征重要性排列的。

В данном конкретном случае мы могли легко определить (и счесть подозрительным), что некоторые собственные значения всех полученных отсчетов постоянны, но это может не быть общим правилом. Однако, если дрейф происходит на уровне распределения, например, при смещении выборки, рассмотрение отдельных выборок не столь полезно. Они могут быть просто обычными образцами в подмножестве исходного набора данных, и поэтому технически их нельзя считать аномалиями. Но так как мы не можем знать заранее, с каким дрейфом мы сталкиваемся, все же неплохо посмотреть на отдельные образцы!

На рис. 6 показан график кривых решений SHAP, где каждая кривая представляет аномальную выборку. Этот тип графика может помочь нам определить дрейф. Мы также можем видеть, что кривая смещается в сторону более высоких показателей дрейфа классификатора предметной области.

图 6. SHAP 决定曲线图。每条曲线代表 100 个异常最显著的样本之一。最上方的特征是对特征的异常贡献最大的，并且大大增加了域分类器判断样本属于新域的概率

В этом случае все аномалии вызваны одним и тем же поврежденным элементом, но для набора выборок, дрейфующих по разным причинам, график решений SHAP может эффективно показать эти тенденции.

Конечно, стандартный анализ распределения функций по-прежнему важен, особенно когда мы можем сосредоточиться на наиболее подозрительных функциях. На рисунке 7 мы изображаем распределения признаков дрейфа для 100 наиболее аномальных выборок красным цветом и сравниваем их с распределением исходного обучающего набора. Дискриминантный анализ больше соответствует человеческой интуиции, поэтому он является простым средством оценки дрейфа в новых наборах данных. В этом случае, взглянув на распределение признаков, мы сразу увидим, что значения признаков постоянны, что не является желаемым распределением.

图 7: 100 个异常最显著的样本的漂移特征分布（红色）和源数据集相应的分布（蓝色）对比图

Суммировать

Когда мы применяем модель к неожиданным изменениям данных и хотим контролировать модель, мы можем использовать детекторы дрейфа, такие как классификаторы доменов, для выявления аномальных выборок при обнаружении дрейфа. Эта последовательность шагов может быть организована в конвейер анализа дрейфа путем маркировки проб с наибольшим дрейфом и их глубокого исследования. Аномалии могут быть помечены благодаря мере важности классификатора домена.

Однако имейте в виду возможные разрывы в мере важности функций, и если у вас больше вычислительных ресурсов, рассмотрите возможность использования SHAP для достижения более точной оценки связи, связанной с дрейфом. Наконец, сочетание полезного инструмента визуализации SHAP с дискриминантным анализом распределения характеристик дрейфа, заданных по отношению к недрейфованному распределению, может упростить и повысить эффективность анализа дрейфа.

Ссылаться на

[1] A Primer on Data Drift

[2] Классификатор предметной области — на пути к надежным MLOps с помощью детекторов дрейфа

[3] Ценности Шепли — Интерпретируемое машинное обучение — К. Молнар

[4] SHapley Additive exPlanations package

Если вы обнаружите ошибки в переводе или в других областях, требующих доработки, добро пожаловать наПрограмма перевода самородковВы также можете получить соответствующие бонусные баллы за доработку перевода и PR. начало статьиПостоянная ссылка на эту статьюЭто ссылка MarkDown этой статьи на GitHub.

Программа перевода самородковэто сообщество, которое переводит высококачественные технические статьи из Интернета сНаггетсДелитесь статьями на английском языке на . Охват контентаAndroid,iOS,внешний интерфейс,задняя часть,блокчейн,продукт,дизайн,искусственный интеллектЕсли вы хотите видеть более качественные переводы, пожалуйста, продолжайте обращать вниманиеПрограмма перевода самородков,официальный Вейбо,Знай колонку.