Набор данных удален безвозвратно, Microsoft не первый, и MIT не последний

компьютерное зрение

Массачусетский технологический институт недавно выпустил уведомление о том, что знаменитый крошечный набор данных изображений Tiny Images Dataset навсегда удаляется из-за обвинений в расовой дискриминации и дискриминации в отношении женщин.

Недавно Массачусетский технологический институт (MIT) принес извинения.Объявил о постоянном удалении набора данных Tiny Images Dataset и призвал все общество совместно деактивировать и удалить этот набор данных, а пользователи, у которых уже есть набор данных, не должны предоставлять его другим.

В прошлом году несколько известных наборов данных, выпущенных предприятиями и научно-исследовательскими учреждениями, были удалены или навсегда запрещены, в том числеНабор данных о знаменитостях Microsoft MS Celeb 1M, набор данных наблюдения Duke MTMC Университета Дьюка для распознавания пешеходов и набор данных Стэнфордского университета Brainwash для обнаружения голов.

Набор данных Tiny Images, который на этот раз был снят с полок, был создан и выпущен Массачусетским технологическим институтом в 2006 году. Как следует из названия, это крошечный набор данных изображений.

Содержит 79,3 миллиона цветных изображений размером 32 x 32 пикселя, в основном взятых из Google Images.

Большие наборы данных, файлы, метаданные и дескрипторы хранятся в виде двоичных файлов.
Для загрузки требуется набор инструментов MATLAB и файл индексных данных.

Весь набор данных имеет размер почти 400 Гб, и размер набора данных делает его одним из самых популярных наборов данных в области исследований компьютерного зрения.

Статьи, опубликованные одновременно с этим набором данных«80 миллионов крошечных изображений: большой набор данных для непараметрического распознавания объектов и сцен», доступное для поиска цитирование этой статьи также достигает 1718 раз.

Документ, который запускает самопроверку больших наборов данных

Это была недавно опубликованная статья «Большой набор данных изображений: пиррова победа компьютерного зрения?», которая выдвинула набор данных изображений Tiny Images Dataset на передний план.

Документ вызывает серьезные сомнения в отношении соответствия этих больших наборов данных.

Адрес статьи: https://arxiv.org/pdf/2006.16923.pdf

Два автора, один — Винай Прабху, главный научный сотрудник UnifyID. UnifyID — это стартап искусственного интеллекта в Силиконовой долине, который предоставляет клиентам решения для аутентификации пользователей.

Другой автор — Абеба Бихане, кандидат наук Университетского колледжа Дублина.

В качестве примера в статье в основном используется набор данных ImageNet-ILSVRC-2012.Автор обнаружил, что набор данных содержит несколько изображений откровенных снимков (например, скрытых снимков других людей на пляже, включая даже интимные места).Считается, что эти снимки серьезно нарушают частную жизнь сторон из-за небрежного рецензирования.

Когда-то классический набор данных, теперь политически некорректный

В отличие от предполагаемого вторжения ImageNet в частную жизнь,Причина критики набора данных Tiny Images в документе заключается в том, что в наборе данных есть десятки тысяч изображений с расовой и женской дискриминацией.

И отметил, что, поскольку набор данных Tiny Images не прошел аудит, проблемы дискриминации и нарушения конфиденциальности еще более серьезны.

Выбор раздела набора данных Tiny Images

это сказатьНабор данных Tiny Images основан на спецификации WordNet для маркировки и классифицирует около 80 миллионов изображений по 75 000 категорий.

Также из-за частичной разметки WordNet набор данных был поставлен под сомнение.

Горшок WordNet, набор данных изображений снова вместе

Как мы все знаем, WordNet был совместно разработан психологами, лингвистами и компьютерными инженерами из Лаборатории когнитивных наук Принстонского университета, и с момента своего выпуска в 1985 году он стал наиболее стандартизированной и всеобъемлющей словарной системой английского языка в англоязычном мире.

Нормативные и комплексные средства: объективно собрать английские слова, существующие в человеческом обществе, и придать им понимание и актуальность.

В наборе данных Tiny Images 53 464 различных существительных в WordNet используются в качестве меток к изображениям.

Статистика чувствительных слов, связанных с расой и полом в наборе данных

Именно поэтому прямые ссылки на выражения человеческого общества неизбежно вводят некоторые слова, связанные с расовой дискриминацией и сексизмом.

Например, слова, которые выражают явное оскорбление или унижение.БИ*есть, Б*горячо, НИ*gи И так далее, они стали соответствующими тегами изображения.Кроме того, есть некоторые субъективные заголовки суждений, такие какрастлитель растлитель, педофилЖдать.

Перед научными исследованиями необходимо измерить социальное воздействие

Автор считает, что крупномасштабные наборы изображений, многие из которых не были тщательно измерены в начале построения, могут представлять угрозу и наносить ущерб правам и интересам личности.

Из-за текущей информации из открытых источников любой может использовать открытый API для запуска запроса для определения или оценки личности или портретов людей в ImageNet или других наборах данных, что действительно опасно и нарушает права сторон. Автор также дал три решения:
Один из них состоит в том, чтобы синтезировать реальную дистилляцию и дистилляцию набора данных,Например, использование (или улучшение) синтетических изображений для замены реальных изображений во время обучения модели;
Во-вторых, усилить фильтрацию набора данных на основе этики и морали;
Третий — количественный аудит набора данных,Авторы проводят кросс-категорийный количественный анализ ImageNet, чтобы оценить степень этических нарушений и измерить жизнеспособность подходов, основанных на аннотациях моделей.

Удаление набора данных: либо сознательно, либо внешнее давление

Массачусетский технологический институт не первый, кто выступил с инициативой удаления наборов данных из-за давления общественного мнения или самосознания. Еще в середине 2019 года Microsoft удалила знаменитый набор данных MS Celeb 1M и объявила, что он больше не будет использоваться.

Набор данных MS Celeb 1M представляет собой набор данных, полученный путем поиска 1 миллиона знаменитостей в сети, выбора 100 000 в зависимости от их популярности, а затем использования поисковой системы для выбора около 100 фотографий каждого человека.

Набор данных MS Celeb 1M

MS Celeb 1M часто используется для обучения распознаванию лиц.Первый набор данных был использован в конкурсе MSR IRC, который также является одним из самых высокоуровневых соревнований по распознаванию изображений в мире, включая такие компании, как IBM, Panasonic, Alibaba, Nvidia и Hitachi также использует этот набор данных.

Один исследователь указал, что это касается таких вопросов, как этика, происхождение и личная конфиденциальность наборов данных изображений для распознавания лиц. Поскольку все эти изображения взяты из Интернета, хотя Microsoft заявила, что захват и получение этих изображений осуществляется в соответствии с «Соглашением Creative Commons License CC» (люди на фотографиях не обязательно имеют лицензию, но являются владельцами авторских прав).

Согласно соглашению, фотографии могут использоваться для научных исследований, но после того, как Microsoft выпустила набор данных, она не смогла эффективно контролировать использование набора данных.

В дополнение к набору данных MS Celeb 1M Университет Дьюка выпустил набор данных мониторинга Duke MTMC для распознавания пешеходов, а Стэнфордский университет выпустил набор данных Brainwash для обнаружения головы.

Загрузите другие наборы данных в ближайшее время, возможно, завтра тоже

Недавнее шумное движение «жизни черных имеет значение» за расовое равенство вызвало панику во всех сферах жизни в Европе и Соединенных Штатах, и в компьютерных и инженерных кругах ведутся постоянные дискуссии, споры и размышления.

Изначально компании и организации, представленные языками Github и Go, начали модифицировать соглашения об именах, например, следует избегать слов «черный список» и «белый список», а следует использовать нейтральные слова «черный список» и «белый список». . , или измените имя ветки по умолчанию с "master" на "trunk".

Другого пионера глубокого обучения Лекуна обвинили в расовой дискриминации и сексистских высказываниях, и он добровольно покинул Twitter.

Политкорректность теперь может быть нацелена на большие наборы данных.

Это правда, что большое количество наборов данных имеет много необдуманных и несовершенных частей в начале их разработки. Однако в нынешних условиях прямое удаление соответствующих наборов данных — не лучшее решение проблемы предвзятости.

Ведь эти картинки есть не только в этих наборах данных, и эти предубеждения — не просто несколько слов в WordNet.

Набор данных был удален, картинки до сих пор в каждом уголке Интернета, WordNet отключен, а эти слова до сих пор в мыслях людей. Чтобы устранить предвзятость ИИ, нам по-прежнему необходимо обращать внимание на давние предубеждения в обществе и культуре.

Лекун: Всего несколько твитов, я выхожу из круга (встает на руки)

Адрес загрузки: https://hyper.ai/datasets/5361

Совет. Этот набор данных является предметом споров о соответствии, пожалуйста, используйте его с осторожностью.

-- Заканчивать --