1. Определения
Среднее значение оценки вклада функции во всех случаях.
2. Объясните
1.1 Линейная модель:
один из нихявляется собственным значением,является соответствующей функциейзначение веса. Затем мы вычисляем прогнозируемое значениеособенностьстоимость вкладаДа:
в— оценка среднего воздействия, а значение вклада — разница между характерным воздействием и средним воздействием. Когда мы суммируем вклад каждого признака выборки, это:
Таким образом, это может быть получено как точка данных x минус его среднее прогнозируемое значение.
1.2 Значение Шепли
В теории игр значение Шепли — это решение, которое вычисляет значения вклада функций для одного прогноза всех моделей машинного обучения. Согласно исходному определению, которое будет распространено на машинное обучение, значение Шепли собственного значения — это взвешенная сумма расходов при вкладе всех возможных собственных значений.
S — подмножество признаков, используемых во всех моделях, x — вектор собственных значений для одной выборки, подлежащей объяснению,является предсказанным значением собственных значений в подмножестве S.
Shapley Value имеет четыре свойства:
- срок действия: Значение вклада функции представляет собой накопление разницы между прогнозируемым значением и средним значением прогнозируемого значения.
- симметрия: Если во всех случаях два собственных значения вносят одинаковый вклад, то их значения Шепли равны.
- дурачок: если функция не изменяет прогнозируемое значение, независимо от того, в какой комбинации значение Шепли равно 0.
- Аддитивность: можно добавить два значения Шепли.
2. Приложение
1.3 Приблизительная оценка значения Шепли для одного признака
Приблизьте значение Шепли, используя метод выборки Монте-Карло.
Шаги алгоритма:
- от
- Возьмите случайную выборку z из x
- Случайная перестановка признаков o
- Сортировать х:
- Сортировать по я:
- Построить новый образец
- Имеет функцию j:
- Нет функции j:
- Вклад вычислительных ресурсов
- Рассчитайте среднее значение Шепли:
3. Преимущества и недостатки
3.1 Преимущества
- Метод сравнения прогнозируемого значения со средним прогнозируемым значением — это способ сравнения справедливого распределения.
- Расчеты значения Шепли допускают сравнительную интерпретацию.
- Этот метод подкреплен прочной теорией (валидность, симметрия, фиктивность, аддитивность).
- Предсказание можно интерпретировать как игровое явление с участием признаков.
3.2 Недостатки
- Время расчета велико.
- Значение Шепли будет неверно истолковано.
-
- Shapley Value недоступен для разреженной интерпретируемости (включено меньшее количество функций). Но это можно решить с помощью пакета LIME или SHAP (также основанного на значении Shapley, но может решить проблему разреженности)
- Изменения состояния, которые можно использовать для непрогностических моделей.
- Данные должны быть доступны.
- Для нереалистичных образцов это повлияет на его расчетное значение.