Подготовлено Berkeley AI Lab: Перенос стиля шрифта с помощью GAN

искусственный интеллект Нейронные сети Архитектура WeChat

Автор | Саманэ Азади
Переводчик |
Править | Дебра
Руководство по передовой ИИ:Генеративно-состязательные сети (GAN, Generative Adversarial Networks) — это модель глубокого обучения и один из самых многообещающих методов неконтролируемого обучения на сложных распределениях в последние годы. GAN чаще всего используются при создании изображений, таких как задачи сверхвысокого разрешения, семантическая сегментация и многое другое. Итак, можно ли его применить для передачи стиля шрифта? Ответ: Да. Несколько дней назад Саманэ Азади, аспирант, изучающая машинное зрение и машинное обучение в Калифорнийском университете в Беркли, недавно написала статью: «Перенесите свой стиль шрифта с помощью GAN», которая была переведена и отправлена ​​AI Frontline с разрешения автора и заинтересовала читатели могут прочитать его. Эта статья является введением к 26-й статье об AI Frontline.

Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)

Текст — важный визуальный элемент 2D-дизайна. Художники тратят много времени на разработку глифов, чтобы они соответствовали формам и текстурам других элементов и т. д. Сам процесс является трудоемким, и художник обычно создает только подмножество глифов, необходимых для заголовка или аннотации, что затрудняет повторное изменение текста после завершения дизайна, и другие не могут напрямую изменить его. копировать существующие экземпляры Font используются в своих собственных проектах.

Ранние исследования по синтезу глифов в основном сосредоточены на геометрическом моделировании контура, которое ограничено конкретной топологией глифов (если его нельзя применить к декоративным или рукописным символам), нельзя использовать для ввода изображения. Однако с появлением глубоких нейронных сетей исследователи начали исследовать методы моделирования ганхинга с помощью графики. С другой стороны, данные, согласующиеся с частичными наблюдениями, представляют собой интересную проблему при расчете визуальных и графических изображений, таких как многоракурсные изображения, и изображения дополняют недостающую область и создают трехмерную форму. Данные шрифта — это пример четкой декомпозиции стиля и содержания.

Недавние достижения в условных генеративно-состязательных сетях (cGAN) дали отличные результаты во многих генеративных приложениях. Однако они могут делать все возможное только в довольно специализированных доменах, а не в общем или многодоменном переносе. Точно так же модели cGAN создают значительные артефакты изображения при непосредственном использовании для создания глифов. Например, учитывая пять букв, показанных ниже:

Обучение cGAN изучению стиля глифов 5 букв на картинке выше, а затем создание 26 букв того же стиля, не приводит к успеху.

Мультиконтентная GAN для передачи нескольких стилей шрифтов

Вместо обучения одной сети для всех возможных украшений шрифтов мы разрабатываем архитектуру Multi-Content GAN (Multi-Content GAN), которая переобучает пользовательскую сеть для каждого наблюдаемого набора символов с небольшим количеством наблюдаемых глифов. Идея этой модели состоит в том, чтобы использовать текст в канале (A~Z) и стиль в слое нейронной сети для переноса заданного стиля глифа на невидимый контент.

Многоконтентная модель GAN состоит из стека нескольких cGAN, где один cGAN используется для прогнозирования грубой формы глифа, а один cGAN используется для прогнозирования окончательного цвета и текстуры глифа. Первая сеть, называемая GlyphNet, предсказывает маски глифов; вторая сеть, называемая OrnaNet, используется для раскрашивания и украшения глифов, сгенерированных первой сетью. Каждая подсеть следует архитектуре cGAN, некоторые из которых настроены для таких целей, как прогнозирование глифов или украшений.

Сетевая архитектура

На рисунке ниже представлена ​​схема GlyphNet, показывающая, как изучать стили шрифтов из набора обучающих наборов данных. Вход и выход GlyphNet — это стопки глифов, которые назначают каналы для каждой буквы. На каждой итерации обучения x1 случайным образом выбирает подмножество глифов из y1, а остальные входные каналы обнуляются.

Благодаря этому новому дизайну стека глифов нейронная сеть может получить корреляцию между различными глифами через информацию о канале, тем самым реализуя автоматическую передачу стиля. На рисунке ниже показано, как модель изучила корреляции из 1500 образцов глифов, количественно оцененных по критерию структурного сходства (SSIM). Просматривая по одной букве за раз, можно найти 25 дистрибутивов. Эти графики показывают распределение α|β, которое генерирует букву α, когда наблюдается буква β (синий цвет) и даны другие буквы вместо β (красный цвет). На графике показано распределение двух наиболее информативных заданных букв и двух наименее очевидных, каждая из которых использовалась для создания 26 букв. Например, из пятого ряда на рисунке буквы F и B являются наиболее конструктивными в образовании буквы E, по сравнению с другими буквами, а I и W - наименее информативными буквами. Кроме того, O и C являются наиболее конструктивными буквами, используемыми для построения G, а R и B для создания P.

Следовательно, даже если для любого желаемого шрифта наблюдается всего несколько букв, предварительно обученный GlyphNet сгенерирует все 26 глифов от A до Z на основе стилей этих букв. Но как реализовать передачу стиля? Вторая сеть, OrnaNet, использует эти сгенерированные глифы, а Multi-Content GAN повторно преобразует эти данные.На следующем рисунке T используется для представления повторяющихся шагов канала в градациях серого, а затем OrnaNet использует cGAN для генерации ожидаемых цветов и украшения. Вход и выход OrnaNet представляют собой пакеты изображений RGB, а не стеки, где каналы RGB каждой буквы в виде изображений итеративно заполняются соответствующими глифами в градациях серого, сгенерированными GlyphNet. OrnaNet также заполнен несколькими регуляризаторами, чтобы компенсировать отклонение между маской сгенерированной буквы и соответствующим глифом.

результат

Ниже приведен пример предложения, в котором мы демонстрируем использование стиля шрифта, заданного одним словом.

Кроме того, вот пошаговый процесс предсказания OrnaNet:


использованная литература

[1] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. "Image-to-Image Translation with Conditional Adversarial Networks." CVPR 2017.

[2] Samaneh Azadi, Matthew Fisher, Vladimir Kim, Zhaowen Wang, Eli Shechtman, and Trevor Darrell. "Multi-Content GAN for Few-Shot Font Style Transfer." CVPR 2018.

Оригинальная ссылка:

http://bair.berkeley.edu/blog/2018/03/13/mcgan/


Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)