Видео введение:Откройте для себя неизвестные неизвестные в машинном обучении
Производительность модели машинного обучения (ML) зависит от алгоритма обучения и данных, используемых для обучения и оценки. Роль алгоритмов хорошо изучена и находится в центре внимания многочисленных задач, таких как SQuAD, GLUE, ImageNet и т. д. Кроме того, были предприняты усилия по улучшению данных, включая серию семинаров, посвященных проблемам оценки машинного обучения. Напротив, не принято сосредотачиваться на данных, используемых для оценки моделей ML. Кроме того, многие наборы данных для оценки содержат элементы, которые легко оценить, например фотографии с легко идентифицируемыми объектами, поэтому они пропускают естественную двусмысленность реального контекста. Отсутствие двусмысленных реальных примеров при оценке снижает возможность надежного тестирования производительности машинного обучения, делая модели машинного обучения склонными к «слабым местам», классам примеров, которые трудно или невозможно точно оценить моделью из-за отсутствия примеров такого рода в оценочном наборе.
Чтобы решить проблему выявления этих слабых мест в моделях машинного обучения, мы недавно запустили краудсорсинговый набор неблагоприятных тестов машинного обучения (CATS4ML) Data Challenge на HCOMP 2020 (открыт для исследователей и разработчиков со всего мира до 30 апреля 2021 г.). Цель задачи — поднять планку в оценочном наборе машинного обучения и найти как можно больше примеров, которые делают алгоритм запутанным или иным образом проблематичным. CATS4ML полагается на человеческие способности и интуицию, чтобы обнаруживать новые примеры данных, которым машинное обучение верит, но на самом деле неправильно классифицирует.
Каковы «слабые стороны» машинного обучения?
Есть два типа слабостей: известные неизвестные и неизвестные неизвестные. Известные неизвестные — это примеры, когда модель не уверена в правильности классификации. Исследовательское сообщество продолжает исследовать это в области, называемой активным обучением, и нашло решение, в двух словах, интерактивно получать новые ярлыки от людей на неопределенных примерах. Например, если модель не уверена, является ли объект фотографии котом, человека просят подтвердить это, но если система уверена, человека не спрашивают. Хотя в этой области есть возможности для улучшения, обнадеживает тот факт, что уверенность модели связана с ее производительностью, т. е. можно увидеть то, чего модель не знает.
С другой стороны, неизвестные неизвестные — это примеры, когда модель уверена в своем ответе, но на самом деле ошибается. Активные усилия по обнаружению неизвестных неизвестных (например, Аттенберг, 2015 г. и Кроуфорд, 2019 г.) помогли выявить множество неожиданных вариантов поведения машин. В отличие от этого метода обнаружения неизвестного, генеративно-состязательные сети (GAN) генерируют неизвестные модели распознавания изображений в виде иллюзий компьютерного зрения, которые заставляют модели глубокого обучения совершать ошибки, недоступные человеческому восприятию. В то время как GAN находит уязвимости модели с помощью преднамеренных манипуляций, реальные примеры могут лучше выявить сбои модели в повседневной работе. Эти примеры из реального мира представляют интерес для CATS4ML. Задача состоит в том, чтобы собрать необработанные примеры, которые люди могут надежно интерпретировать, но с которыми, безусловно, не согласны многие модели машинного обучения.
Первое издание конкурса данных CATS4ML: открытый набор данных изображений
Задача данных CATS4ML фокусируется на визуальном распознавании с использованием изображений и меток из открытых наборов данных изображений. Целевые изображения для задачи выбираются из открытого набора данных изображений вместе с набором из 24 целевых меток из того же набора данных. Участникам конкурса предлагается изобрести новые и творческие способы изучения этого существующего общедоступного набора данных и сосредоточиться на заранее выбранном списке целевых меток, чтобы найти примеры неизвестных неизвестных для моделей ML.
CATS4ML является дополнением к недавно запущенной FAIR исследовательской платформе DynaBench для динамического сбора данных. DynaBench использует модели машинного обучения для решения статических задач сравнительного анализа в цикле, а CATS4ML фокусируется на улучшении набора данных оценки машинного обучения, поощряя изучение неблагоприятных примеров, которые могут быть неизвестны существующим эталонным тестам машинного обучения. Результаты помогут обнаружить и избежать ошибок в будущем, а также дадут представление об интерпретируемости модели.
Таким образом, CATS4ML стремится повысить осведомленность о проблеме, предоставляя ресурсы наборов данных, которые разработчики могут использовать для обнаружения слабых мест в своих алгоритмах. Он также предоставит исследователям информацию о том, как создавать более сбалансированные, разнообразные и социально ориентированные эталонные наборы данных для машинного обучения.
принимать участие
Мы приглашаем глобальное сообщество исследователей и практиков машинного обучения присоединиться к нам в наших усилиях по поиску интересных и сложных примеров из открытых наборов данных изображений. Зарегистрируйтесь на веб-сайте конкурса, загрузите целевые изображения и данные тегов, добавьте изображения, которые вы найдете, и примите участие в конкурсе победителей!
Чтобы получить баллы в этом конкурсе, участники должны представить набор пар изображений и меток, подтвержденных оценщиками, чьи голоса не должны соответствовать среднему машинному баллу меток на нескольких моделях машинного обучения.
Задача открыта для исследователей и разработчиков со всего мира до 30 апреля 2021 года. Чтобы узнать больше о CATS4ML и о том, как присоединиться, посетитеместо вызова.
Инструкции по обновлению: Приоритет отдается обновлению общедоступной учетной записи WeChat «Блог дождливой ночи», а блог будет обновлен позже, а затем будет распространен на различные платформы.Если вы хотите узнать больше заранее, обратите внимание на Публичный аккаунт WeChat «Блог дождливой ночи».
Источник блога:Блог Дождливой ночи