[Объяснимое машинное обучение] Значение Шепли

искусственный интеллект алгоритм

1. Определения

Среднее значение оценки вклада функции во всех случаях.

2. Объясните

1.1 Линейная модель:

f^(x)=бета0+бета1x1+...+бетаpxp,j=1,...,p\hat{f}(x)=\beta_0+\beta_1x_1+...+\beta_px_p, j = 1,...,p

один из нихxjx_jявляется собственным значением,бетаj\beta_jявляется соответствующей функциейjjзначение веса. Затем мы вычисляем прогнозируемое значениеf^(x)\hat{f}(x)особенностьjjстоимость вкладафj\phi_jДа:

фj(f^)=бетаjxjE(бетаjXj)=бетаjxjбетаjE(Xj)\phi_j(\hat{f})=\beta_jx_j-E(\beta_jX_j)=\beta_jx_j-\beta_jE(X_j)

вE(бетаjXj)E(\beta_jX_j)— оценка среднего воздействия, а значение вклада — разница между характерным воздействием и средним воздействием. Когда мы суммируем вклад каждого признака выборки, это:

j=1pфj(f^)=j=1p(бетаjxjE(бетаjxj))=(бета0j=1pбетаjxj)(бета0j=1pE(бетаjXj))=f^(x)E(f^(X))\sum_{j=1}^{p}\phi_j(\hat{f})=\sum_{j=1}^{p}(\beta_jx_j-E(\beta_jx_j))=(\beta_0-\sum_{j=1}^{p}\beta_jx_j)-(\beta_0-\sum_{j=1}^{p}E(\beta_jX_j))=\hat{f}(x)-E(\hat{f}(X))

Таким образом, это может быть получено как точка данных x минус его среднее прогнозируемое значение.

1.2 Значение Шепли

В теории игр значение Шепли — это решение, которое вычисляет значения вклада функций для одного прогноза всех моделей машинного обучения. Согласно исходному определению, которое будет распространено на машинное обучение, значение Шепли собственного значения — это взвешенная сумма расходов при вкладе всех возможных собственных значений.

фj(val)=S{x1,...xp}\{xj}S!(pS1)!p!(val(S{xj})val(S))\phi_j(val)=\sum_{S \subseteq \left \{ x_1,...x_p \right \} \backslash \left \{ x_j \right \} }\frac{\left | S \right |!(p-\left | S \right |-1)!}{p!}\left ( val(S\cup \left \{ x_j \right \}) -val(S)\right )

S — подмножество признаков, используемых во всех моделях, x — вектор собственных значений для одной выборки, подлежащей объяснению,valx(S)val_x(S)является предсказанным значением собственных значений в подмножестве S.

Shapley Value имеет четыре свойства:

  • срок действия: Значение вклада функции представляет собой накопление разницы между прогнозируемым значением и средним значением прогнозируемого значения.
  • симметрия: Если во всех случаях два собственных значения вносят одинаковый вклад, то их значения Шепли равны.
  • дурачок: если функция не изменяет прогнозируемое значение, независимо от того, в какой комбинации значение Шепли равно 0.
  • Аддитивность: можно добавить два значения Шепли.

2. Приложение

1.3 Приблизительная оценка значения Шепли для одного признака

Приблизьте значение Шепли, используя метод выборки Монте-Карло.

фj^=1Mm=1M(f^(x+jm)f^(xjm))\hat{\phi_j}=\frac{1}{M} \sum_{m=1}^{M}(\hat{f}(x_{+j}^m)-\hat{f}(x_{-j}^m))

Шаги алгоритма:

  1. отm=1,...,Mm=1,...,M
    1. Возьмите случайную выборку z из x
    2. Случайная перестановка признаков o
    3. Сортировать х:xo=(x1,...,xj,...,xp)x_o=(x_1,...,x_j,...,x_p)
    4. Сортировать по я:zo=(z1,...,zj,...,zp)z_o=(z_1,...,z_j,...,z_p)
    5. Построить новый образец
      • Имеет функцию j:x+j=(x1,...,xj1,xj,zj+1...,zp)x_{+j}=(x_1,...,x_{j-1},x_j,z_{j+1}...,z_p)
      • Нет функции j:xj=(x1,...,xj1,zj,zj+1...,zp)x_{-j}=(x_1,...,x_{j-1},z_j,z_{j+1}...,z_p)
    6. Вклад вычислительных ресурсовфjm=f^(x+j)f^(xj)\phi_j^m=\hat{f}(x_{+j})-\hat{f}(x_{-j})
  2. Рассчитайте среднее значение Шепли:фj(x)=1Mm=1Mфjm\phi_j(x)=\frac{1}{M} \sum_{m=1}^{M}\phi_j^{m}

3. Преимущества и недостатки

3.1 Преимущества

  • Метод сравнения прогнозируемого значения со средним прогнозируемым значением — это способ сравнения справедливого распределения.
  • Расчеты значения Шепли допускают сравнительную интерпретацию.
  • Этот метод подкреплен прочной теорией (валидность, симметрия, фиктивность, аддитивность).
  • Предсказание можно интерпретировать как игровое явление с участием признаков.

3.2 Недостатки

  • Время расчета велико.
  • Значение Шепли будет неверно истолковано.
    • Shapley Value недоступен для разреженной интерпретируемости (включено меньшее количество функций). Но это можно решить с помощью пакета LIME или SHAP (также основанного на значении Shapley, но может решить проблему разреженности)
  • Изменения состояния, которые можно использовать для непрогностических моделей.
  • Данные должны быть доступны.
  • Для нереалистичных образцов это повлияет на его расчетное значение.