[Перевод] Использование инструмента «что, если» для исследования моделей машинного обучения

машинное обучение искусственный интеллект Программа перевода самородков
[Перевод] Использование инструмента «что, если» для исследования моделей машинного обучения

Используйте инструмент «Что, если» для изучения моделей машинного обучения

Google открыл инструмент для простого анализа моделей машинного обучения без написания кода.

Photo by [Pixabay](https://www.pexels.com/@pixabay?utm_content=attributionCopyText&utm_medium=referral&utm_source=pexels) from [Pexels](https://www.pexels.com/photo/ask-blackboard-chalk-board-chalkboard-356079/?utm_content=attributionCopyText&utm_medium=referral&utm_source=pexels)

Хорошие эксперименты помогают нам лучше понять их модели¹

В эту эпоху объяснимого машинного обучения нельзя довольствоваться простым обучением модели и получением от нее прогнозов. Чтобы иметь возможность действительно оказывать влияние и достигать хороших результатов, мы также должны иметь возможность исследовать и изучать наши модели. В дополнение к этому, прежде чем приступить к модели, следует четко помнить об ограничениях справедливости и предвзятости алгоритма.


Изучение модели требует изучения множества вопросов, и сторонам необходимо обладать детективным интеллектом, чтобы исследовать и находить проблемы и несоответствия в модели. Кроме того, такие задачи часто бывают сложными и требуют написания большого количества пользовательского кода. К счастью,What-If ToolЭто решает эту проблему для нас, упрощая и упрощая пользователям проверку, оценку и отладку систем машинного обучения.

Инструмент «что, если» (WIT)

[资源](https://pair-code.github.io/what-if-tool/index.html)

Инструмент «что, если»— интерактивный визуальный инструмент для изучения моделей машинного обучения. Сокращенно WIT, он позволяет людям понимать модели классификации или регрессии путем изучения, оценки и сравнения моделей машинного обучения. Благодаря удобному интерфейсу и меньшей зависимости от сложного кодирования его могут использовать разработчики, менеджеры по продуктам, исследователи или студенты для достижения своих целей.

WITот GooglePAIR(человек + поиск ИИ)Инструмент визуализации с открытым исходным кодом, выпущенный командой. СОПРЯЖЕНИЕ черезGoogleОбъединение исследователей для изучения и изменения того, как люди взаимодействуют с системами ИИ.


Инструмент можно использовать через TensorBoard, Jupyter илиColabРасширенное использование ноутбуков.

Преимущество

Цель этого инструмента — предоставить людям простой, интуитивно понятный и мощный способ использования обученной модели машинного обучения на наборе данных только через визуальный интерфейс. Ниже приведены основные преимущества WIT.

你可以用 What-If 工具做什么?


В примере с использованием инструмента мы рассмотрим все вышеперечисленные пункты.

Пример

Чтобы проиллюстрировать возможности инструмента «Что если», команда PAIR выпустила набор предварительно обученных моделей.Пример. Вы можете запустить демонстрационную программу в блокноте или запустить ее непосредственно на веб-странице.


尝试 what-If 工具!

Пример

ВИТ может бытьJupyterилиColabиспользовать в ноутбуках или вTensorBoardиспользуется в веб-приложениях. существуетДокументацияЭто было очень подробно объяснено в , и я настоятельно рекомендую вам прочитать эту короткую статью, чтобы объяснить весь процесс.

Основная идея состоит в том, чтобы сначала обучить модель, а затем использовать инструмент «что, если» на тестовом наборе для визуализации результатов обученного классификатора.

Использование WIT с Tensorboard

вам нужно пройтиСервер моделей TensorFlowРазверните свою модель, чтобы использовать WIT в TensorBoard, и анализируемые данные должны бытьTFRecordsдокумент. Дополнительные сведения об использовании WIT с TensorBoard см.Документация.

Использование WIT на ноутбуке

Чтобы получить доступ к WIT в записной книжке, вам нужен объект WitConfigBuilder, указывающий данные и модель для анализа. этоДокументацияПредоставляется пошаговое руководство по использованию WIT в ноутбуках.


Чтобы убедиться, что работа выполнена, вы можете использоватьпример блокнота, чтобы отредактировать код для размещения набора данных.

Полный пример

Давайте обсудим функциональность WIT на примере. Этот образец примера взят из файла с именемIncome Classification, нам нужно предсказать, будет ли человек зарабатывать более 50 000 долларов в год на основе его переписи. Набор данных поступает изUCI Census dataset, который состоит из таких атрибутов, как возраст, семейное положение и уровень образования.

Обзор

Сначала мы проводим исследование набора данных. Вот один для последующей демонстрацииСсылка на сайт.

Инструмент «Что, если» состоит из двух основных панелей.правая панельСодержит визуализации отдельных точек данных в загруженном наборе данных.

при этих обстоятельствах,синяя точкапредполагаемый доход моделименее 50клюди,Красная точкапредполагаемый доход моделиЛюди старше 50к. По умолчанию WIT использует значение 0,5.Положительный порог классификации. Это означает, что если оценка вывода модели составляет 0,5 или выше, считается, что точка данных относится к положительному классу (т. е. к высокому доходу).

Здесь стоит отметить, что набор данных находится вFacets Diveвизуализируется в. Facets Dive переработан командой PAIRFACETSЧасть инструмента, который помогает нам понять различные свойства данных и исследовать их. Если вы не знакомы с этим инструментом, вы можете обратиться к этой статье о функции FACETS, которую я написал ранее.

Можно также организовать точки данных различными способами, включая матрицы путаницы, диаграммы рассеяния, гистограммы и малые кратные, выбирая поля из раскрывающихся меню. Ниже приведены несколько примеров.

левая панельСодержит три вкладки数据点编辑,性能和公平性и特征.

1. Панель редактирования точки данных

Редактирование точек данных выполняет анализ данных следующими способами:

  • Просмотр и редактирование сведений о точке данных

Это позволяет получить доступ к точкам данных, выделенным желтым цветом на правой панели. Мы можем попробовать изменить возраст с 53 на 58 и нажать «Выполнить», чтобы посмотреть, как это повлияет на производительность модели.

Просто изменив возраст, модель теперь будет предсказывать, что человек относится к категории с высоким доходом. Для этой точки данных ранний положительный класс набрал 0,473, а отрицательный класс набрал 0,529. Однако при изменении возраста положительная оценка достигла 0,503.

  • Поиск недавних контрфактов

Другой способ понять модель — увидеть, какие небольшие изменения заставляют модель менять свои решения, так называемыеконтрфактический. Всего одним щелчком мыши мы можем увидеть наиболее похожий контрфактический (выделенный зеленым цветом) вариант с выбранной нами точкой данных. На вкладке редактора точек данных мы также видим собственные значения, противоположные значениям исходной точки данных. Зеленый текст указывает на особенности, которые различаются между двумя точками данных. использование остроумияL1 и L2расстояние, чтобы вычислить сходство между точками данных.

В этом случае самый последний контрфакт немного старше, с другой профессией и приростом капитала, но в остальном та же точка данных.

мы также можем использоватьОтображать аналогично выбранной точке данныхкнопку, чтобы просмотреть сходство между выбранной точкой и другими точками. WIT измеряет расстояние от выбранной точки до любой другой точки данных. Давайте изменим наш диапазон оси X, чтобы показать расстояние L1 до выбранной точки данных.

  • Анализ частичных графов зависимостей

Частичные графики зависимостей (сокращенно графики PDP или PD) показывают незначительное влияние одной или двух функций на прогнозы модели машинного обучения (J. H. Friedman 2001).

PDP для точек данных по возрасту и образованию выглядит следующим образом:

На рисунке выше показано:

  • Модель узнала о положительной корреляции между возрастом и доходом
  • Более высокая степень придаст модели больше уверенности в том, что человек является человеком с высоким доходом.
  • Высокий прирост капитала является очень сильным показателем высокого дохода, гораздо более сильным, чем любая другая отдельная характеристика.

2. Вкладка «Производительность и справедливость»

Эта вкладка позволяет нам просматривать производительность всей модели, используя матрицу путаницы и кривую ROC.

  • Анализ производительности модели

Чтобы измерить производительность модели, нам нужно сообщить инструменту, каковы истинные функции, то есть функции, предсказанные представлением модели, в этом случае являются "Более - 50к".

Мы видим, что при пороговом уровне по умолчанию 0,5 наша модель неверна примерно в 15% случаев, ложноположительна примерно в 5% случаев и ложноотрицательна примерно в 10% случаев. Измените порог, чтобы увидеть его влияние на точность модели.

Также есть настройки, которые можно изменить"коэффициент затрат"и"Порог оптимизации" кнопка.

  • Справедливость машинного обучения

Справедливость в машинном обучении так же важна, как моделирование и прогнозирование результатов. Любая погрешность в обучающих данных будет отражена в обученной модели, и если такая модель развернута, результаты также будут необъективными. WIT может помочь в расследовании вопросов справедливости, рассматривая различные способы. Мы можем установить входную функцию (или набор функций) для нарезки данных. Например, давайте посмотрим на влияние пола на производительность модели.

性别对模型性能的影响

Вы можете видеть, что модель более точно предсказывает женщин, чем мужчин. Кроме того, модель предсказывает, что женщины имеют гораздо более низкие доходы, чем мужчины (9,3% для женщин против 28,6% для мужчин). Одна из возможных причин связана с недостаточной представленностью женщин в наборе данных, которую мы рассмотрим в следующем разделе.

Кроме того, этот инструмент может оптимизировать порог принятия решения, установленный между двумя подмножествами, принимая во внимание любое из многих ограничений, связанных с справедливостью алгоритма, таких как демографические данные или равенство возможностей.

3. Вкладка «Функции»

Вкладка «Функции», которая предоставляет сводную статистику для каждой функции в наборе данных, включая гистограммы, графики квантилей, гистограммы и многое другое. Эта вкладка также позволяет просматривать распределение значений для каждой функции в наборе данных. Например, это может помочь нам изучить пол, прирост капитала и расовые характеристики.

мы делаем вывод资本收益крайне непоследовательно, с большинством точек данных, установленных на 0.

国籍分布 || 性别分布


Опять же, большинство точек данных из США, и женщины не очень хорошо представлены в наборе данных. Поскольку данные необъективны, естественно, что их прогнозы относятся только к одной группе. В конце концов, модель учится на предоставленных данных, и если источник данных предвзят, результаты должны быть столь же предвзяты. Машинное обучение доказало свою ценность во многих приложениях и областях. Однако ключевым препятствием для промышленного применения моделей машинного обучения является определение того, содержат ли необработанные входные данные, используемые для обучения модели, дискриминационные предубеждения.

в заключении


Это всего лишь предварительный просмотр некоторых функций инструмента «Что если». WIT — это очень удобный инструмент, который дает политикам возможность исследовать модели. Простое создание и обучение моделей не являются целью машинного обучения, как понять, почему и как создать модель истинной «Машины».

использованная литература:

  1. The What-If Tool: Code-Free Probing of Machine Learning Models
  2. отправить код людей.GitHub.IO/что-если-тоже…
  3. GitHub.com/tensorflow/…

Если вы обнаружите ошибки в переводе или в других областях, требующих доработки, добро пожаловать наПрограмма перевода самородковВы также можете получить соответствующие бонусные баллы за доработку перевода и PR. начало статьиПостоянная ссылка на эту статьюЭто ссылка MarkDown этой статьи на GitHub.


Программа перевода самородковэто сообщество, которое переводит высококачественные технические статьи из Интернета сНаггетсДелитесь статьями на английском языке на . Охват контентаAndroid,iOS,внешний интерфейс,задняя часть,блокчейн,продукт,дизайн,искусственный интеллектЕсли вы хотите видеть более качественные переводы, пожалуйста, продолжайте обращать вниманиеПрограмма перевода самородков,официальный Вейбо,Знай колонку.