NVIDIA выпускает генератор наборов данных для обучения ИИ DatasetGAN
Корпорация Нвидиаисследователей, созданныхDatasetGAN, система, которая генерирует аннотированные синтетические изображения, используемые для создания наборов данных для обучения моделей зрения ИИ. DatasetGAN можно обучить всего на 16 изображениях, аннотированных человеком, и он работает так же хорошо, как полностью контролируемая система, для которой требуется в 100 раз больше аннотированных изображений.
Долженсистемы и экспериментыв предстоящемКонференция по компьютерному зрению и распознаванию образов(CVPR 2021), описанный в статье. DatasetGAN использует NVIDIAStyleGANТехнология создания фотореалистичных изображений. Аннотаторы-люди делают подробные аннотации различных частей объектов на изображении, а затем обучают интерпретатор этим данным генерировать метки функций из скрытого пространства StyleGAN. В результате получается система, которая может генерировать неограниченное количество изображений и аннотаций, которые затем можно использовать в качестве обучающего набора данных для любой системы компьютерного зрения (CV).
Генеративно-состязательные сети(GAN) — это система, состоящая из двух моделей глубокого обучения: генератора, который учится создавать реалистичные данные, и дискриминатора, который учится различать реальные данные и выходные данные генератора. После обучения генератор обычно используется отдельно, чтобы просто генерировать данные. Nvidia использовала GAN для нескольких приложений, в том числе для уменьшения пропускной способности видеоконференцсвязи.MaxineПлатформа. В 2019 году Nvidia разработалаStyleGANGAN, который может генерировать реалистичные изображения лиц и используется на популярных веб-сайтах.This Person Does Not Exist. В прошлом году Nvidia разработалаСтильGANОдинвариант, который может принимать желаемую камеру, текстуру, фон и другие данные в качестве входных данных для создания настраиваемого рендеринга изображений.
Хотя GAN могут генерировать бесконечное количество уникальных высококачественных изображений, большинство алгоритмов обучения CV также требуют аннотирования изображений с информацией об объектах в них.ImageNetявляется одним из самых популярных наборов данных CV, широко использующим AmazonMechanical Turkработают десятки тысячРабочийчтобы пометить изображение. Хотя эти работники могут аннотировать изображения со скоростью 5 изображений в минуту, изображения представляют собой простые изображения одного объекта. Для более сложных задач машинного зрения, таких как задачи, необходимые для беспилотных автомобилей, требуются сложные изображения сцен с _семантической сегментацией_, где каждый пиксель помечен как часть объекта. По словам исследователей NVIDIA, «маркировка сложной сцены с 50 объектами может занять от 30 до 90 минут».
Представление NVIDIA о DatasetGAN заключается в том, что скрытое пространство, которое вводится в генератор, должно содержать семантическую информацию о сгенерированном изображении и, таким образом, может использоваться для создания аннотированной карты для изображения. Команда создала обучающий набор данных для своей системы, сначала сгенерировав несколько изображений и сохранив связанные с ними скрытые векторы. Сгенерированные изображения аннотируются людьми, а скрытые векторы объединяются с этими аннотациями для обучения. Затем этот набор данных используется для обучения ансамбля классификаторов многослойного персептрона (MLP), которые действуют как интерпретаторы стилей. Входные данные для классификатора состоят из вектора признаков, созданного GAN для генерации каждого пикселя, а выходом является метка для каждого пикселя; например, когда GAN генерирует изображение лица, метка, выводимая интерпретатором, представляет собой часть лица, например, щеки, нос или уши.
Исследователи обучили интерпретатор на сгенерированных изображениях, которые были помечены опытными аннотаторами. Изображения включают спальни, автомобили, лица, птиц и кошек, от 16 до 40 примеров в каждой категории. Затем они использовали полную систему DatasetGAN для создания наборов данных изображений, которые затем использовались для обучения стандартной модели CV. Команда использует несколько общих контрольных показателей CV, таких какCeleb-AиСтэнфордские автомобили,Сравните производительность их моделей, обученных на результирующем наборе данных, с базовыми моделями, обученными с использованием современных передовых методов обучения и частично контролируемых методов. При том же количестве аннотированных изображений модель NVIDIA «значительно» превзошла базовые показатели во всех тестах.
Использование синтетических данных для обучения искусственного интеллекта является активной темой исследований, поскольку снижает затраты и трудозатраты, связанные с созданием наборов данных. Обычный метод обучения мобильных роботов и автономных транспортных средств заключается в использованиивиртуальная средачетноевидеоигрыв качестве источника данных. В 2015 годуМассачусетский университет ЛоуэллаУниверситетские исследователи используютКраудсорсинговые модели САПРдля обучения классификатора изображений. В 2017 году Apple разработала систему, использующую GAN дляулучшатьрезюме обученоКачество составного изображения, но этот метод не создает семантические метки на уровне пикселей.
Хотя Nvidia имеет открытый исходный кодStyleGAN, но код для DatasetGAN еще не выпущен. В обсуждении работы в Твиттере соавтор Хуан Линг отметил, что команда работает надУсилия по публикациии надеемся, что в этом годуNeurIPSСроки встречи соблюдены.
Оригинальная ссылка:Woo Woo.info Q.com/news/2021/0…