Брюки для юбок, просто спросите, не прекрасна ли эта волна шоу ГАН?

GAN

из arXiv,автор:Сану Мо, Минсу Чо, Джину Шин,Составлено Heart of the Machine.

Поменяйте овец на фото на жирафов, а джинсовые штаны на короткие юбки. Звучит невероятно, но исследователи из Корейского института науки и технологий и Университета науки и технологий Пхохана уже добились этого. Они разработали алгоритм машинного обучения, который делает это на нескольких наборах данных изображений. Его статья «InstaGAN: преобразование изображения в изображение с учетом экземпляра» была принята ICLR2019.

брюки к короткой юбке

Системы преобразования изображения в изображение, то есть системы, которые учатся преобразовывать входные изображения в выходные изображения, не являются чем-то новым. В декабре исследователи Google AI разработали модель, которая реалистично вставляет объекты в разумные места на фотографиях, предсказывая их размер, окклюзию, позу, форму и многое другое. Но, как пишут в своей статье создатели InstaGAN, даже современные методы далеки от совершенства.

Новое исследование, представленное в этой статье, реализует перевод изображений на уровне экземпляра на основе CycleGAN.

Источник: контекстно-зависимый синтез и размещение экземпляров объектов.

CycleGANПреодолев ограничение, заключающееся в том, что pix2pix должны быть соединены один за другим при переводе изображений, учитывая два неупорядоченных набора изображений X и Y, CycleGAN может автоматически «переводить» их друг в друга.

Однако он не может кодировать информацию экземпляра в изображении, поэтому он менее эффективен, когда речь идет о преобразовании изображения с использованием функций целевого класса.

"Неконтролируемая трансляция изображения в изображение привлекла большое внимание из-за его впечатляющего недавнего прогресса, основанного на генеративно-состязательных сетях. Однако предыдущие методы часто терпят неудачу при столкновении со сложными задачами, особенно когда изображения имеют несколько целевых экземпляров, а задача включает в себя большие изменения в форме», — говорят исследователи.

Их решением является система InstaGAN, которая объединяет информацию об экземплярах из нескольких задач. InstaGAN генерирует маски сегментации экземпляров изображений (группы пикселей, принадлежащие одному экземпляру), которые объединяют границы объектов, игнорируя такие детали, как цвет.

Новизна заключается в том, что InstaGAN трансформирует изображение и соответствующий набор атрибутов экземпляра, стремясь при этом сохранить фоновый контекст. В сочетании с инновационным методом, позволяющим обрабатывать большое количество атрибутов экземпляров на традиционном оборудовании, он обобщается для образов с множеством экземпляров. Как показано на картинке ниже, не проблема поменять джинсы двух человек на юбки и четырех овец на жирафов.

"Насколько нам известно, до нас никто не реализовывал задачу многоэкземплярного перевода в преобразовании изображения в изображение. В отличие от предыдущих результатов с простыми настройками, мы сосредоточены на гармонии, позволяющей экземплярам естественным образом отображаться вместе с фоном".

Исследователи предоставили системе InstaGAN два типа изображений из разных наборов данных, включая набор данных синтаксического анализа нескольких человек (MHP), набор данных MS COCO и набор данных совместного анализа одежды (CCP). По сравнению с CycleGAN, хорошо зарекомендовавшей себя базой для преобразования изображения в изображение, InstaGAN более успешно создает «разумные формы» целевых экземпляров при сохранении исходного контекста.

«Эксперименты с различными наборами данных успешно помогли решить сложную задачу перевода изображения в изображение — перевод нескольких экземпляров, включая новые задачи, такие как замена джинсов в модных образах на короткие юбки. Изучение новых задач и новой информации — будущее. Интересное направление исследований ", - написали исследователи.

Эта статья была принята ICLR2019 в качестве постера с высокой оценкой 7, 8, 7, и один из рецензентов написал в комментариях к обзору:

Авторы этой статьи выполняют непарное междоменное преобразование экземпляров с несколькими изображениями и предлагают метод — InstaGAN. Основанный на CycleGAN, метод рассматривает информацию об экземпляре в виде масок сегментации для каждого экземпляра.


Эта статья хорошо написана и проста для понимания. Этот метод является новым и решает класс информационных проблем, которые не могли решить предыдущие методы. Мотивация для каждой части модели и цели обучения четко объясняется в контексте проблемы. Результаты выглядят довольно хорошо, значительно превосходя CycleGAN и другие базовые показатели.

Документ: INSTAGAN: ПЕРЕВОД ИЗОБРАЖЕНИЯ В ИЗОБРАЖЕНИЕ С УЧЕТОМ ЭКЗЕМПЛЯРА


  • Ссылка на статью: https://arxiv.org/pdf/1812.10889.pdf

  • Адрес проекта: https://github.com/sangwoomo/instagan

  • Ссылка на ICLR: https://openreview.net/forum?id=ryxwJhC9YX

Аннотация: Из-за быстрого развития генеративно-состязательных сетей неконтролируемый перевод изображения в изображение привлек внимание большого числа исследователей. Однако предыдущие методы, как правило, не подходят для более сложных задач, особенно когда изображение имеет несколько экземпляров объекта или задача преобразования включает в себя чрезвычайно сложные проблемы формы, такие как преобразование брюк на модных фотографиях в короткие юбки. Чтобы решить эту проблему, в этой статье предлагается новый метод, GAN с поддержкой экземпляров (InstaGAN), который включает информацию об экземплярах (например, маски сегментации объектов) для улучшения возможности преобразования нескольких экземпляров. Поддерживая инвариантность перестановки экземпляров, GAN преобразует изображение и соответствующий набор атрибутов экземпляра. С этой целью исследователи вводят функцию потери, сохраняющую контекст, которая побуждает сеть изучать функции идентификации вне целевого экземпляра. Кроме того, они предлагают метод последовательного мини-пакетного вывода/обучения, который обрабатывает несколько экземпляров с ограниченной памятью графического процессора, повышая способность сети к обобщению задач с несколькими экземплярами. Сравнительные оценки демонстрируют эффективность метода на различных наборах данных изображений, особенно в вышеупомянутых сложных случаях.

Рисунок 1: Результаты преобразования предыдущих методов (CycleGAN, Zhu et al. (2017)) по сравнению с InstaGAN. Последнее дает лучшие результаты в задачах преобразования с несколькими экземплярами.

Результаты поиска изображений в Google (брюки → юбки)

Результат на видео на YouTube (брюки → юбка)

Исследователи также выложили две предварительно обученные модели на GitHub, и заинтересованные читатели могут их скачать и попробовать. Нажмите на ссылку ниже, чтобы загрузить предварительно обученную модель (Штаны→Юбка и/или Овца→Жираф):

Адрес: https://drive.google.com/drive/folders/10TfnuqZ4tIVAQP23cgHxJQKuVeJusu85.

Рисунок 2: (a) Обзор архитектуры InstaGAN с генераторами G_XY, G_YX и дискриминаторами D_X, D_Y в соответствии с архитектурами в (b) и (c) соответственно. Каждая сеть одновременно кодирует изображение и соответствующий набор масок экземпляров.

InstaGAN удачно поменял джинсы на юбки и шорты на брюки.

Рисунок 4: Результаты преобразования набора данных совместного анализа одежды (CCP) (Янг и др., 2014).

Поменять местами овец и жирафов, а также поменять чашки и бутылки — не проблема.

Рисунок 6: Результаты преобразования набора данных COCO (Lin et al., 2014).

Мы можем изменить только короткую юбку для первой дамы, или мы можем изменить юбку только для второй леди.Конечно, это нормально, чтобы изменить ее вместе.

Рисунок 7: Различные маски ввода дают разные результаты от InstaGAN.

Конкретный геймплей естественно этим не ограничивается, да и автор не говорил, что нужно ограничивать пол.

Рисунок 13: Дополнительные результаты преобразования (брюки → юбки) в наборе данных MHP.

Из показанного случая также видно, что на эффект преобразования CycleGAN всегда влияет отклонение формы исходного изображения, поэтому его преобразование смещено в сторону уровня текстуры цели. Например, на изображении ниже CycleGAN превратил овцу с короткой шеей в жирафа с короткой шеей.

Рисунок 15: Дополнительные результаты преобразования набора данных COCO (овца → жираф).

Давая оценку, тот же рецензент также указал на некоторые недостатки статьи и дал соответствующие предложения:

Результаты несколько ограничены количеством тестовых полей (три пары изображений — жираф/овца, брюки/юбка, чашка/бутылка). В некотором смысле это тоже понятно. Никто не может использовать его для преобразования объектов (таких как чашки и жирафы), которые никогда не были в одном контексте или имеют разные размеры. Но было бы лучше, если бы примеров было больше, что тоже сделало бы систему более убедительной.


Кроме того, было бы интересно, если бы одну модель можно было обучить на нескольких парах классов и извлечь выгоду из информации, которой они обмениваются.


Оценка в основном качественная. Я хотел бы увидеть больше экспериментов с контрольными переменными для этой модели.

Рисунок 9: Исследование контролируемой переменной влияния каждого компонента метода, описанного в этой статье. Эти части включают в себя: архитектуру InstaGAN, функцию потерь с сохранением контекста, алгоритм последовательного мини-пакетного вывода/обучения, обозначаемый как InstaGAN, L_ctx и Sequential соответственно.

Рисунок 10: Исследование контролируемой переменной влияния последовательных мини-пакетных методов вывода/обучения. «One» и «Seq» обозначают «одноэтапное» рассуждение и рассуждение последовательности соответственно.

Ссылка на ссылку: https://venturebeat.com/2019/01/01/this-neural-network-can-swap-sheep-for-giraffe-jeans-for-skirts/