I. Предисловие
Некоторое время назад завершился второй хакатон, в том числе проект «Ту Я», созданный командой волшебного пера Ма Лян, произвел глубокое впечатление на аудиторию. направление генерации эскизов интернет-изображений. Отправной точкой этого проекта является взаимодействие с пользователями через черновики.Пользователям не нужны сверхвысокие навыки рисования и PS, чтобы легко создавать желаемый контент изображения, чтобы расширить возможности обычных пользователей и принести им беспрецедентное участие, смысл и творчество! Сегодня мы раскроем алгоритмические возможности одной из функций «Ту Я», «Набросок к пейзажу».
Рисунок 1-1. Эскиз проекта Туя превращается в пейзажную картину.
Рисунок 1-2 Tuya Project Image Eraser\
Рисунок 1-3 Нарисованное вручную лицо проекта Tuya
2. Введение в алгоритм Sketch-to-Landscape
Алгоритм представляет собой генератор изображений, основанный на генеративно-состязательных сетях (GAN), который позволяет пользователям рисовать почти реалистичные изображения всего за несколько кликов, мгновенно превращая несколько линий торопливых очертаний в великолепные горные озера и голубое небо в белое облако. Синтез соответствующего изображения реального мира с учетом карты семантической сегментации называется синтезом семантического изображения. Поскольку карты семантической сегментации обычно состоят из простых линий, их легче рисовать, поэтому эта команда называется «Волшебное перо Ма Лян».
Рисунок 2. Отображение эффектов\
2.1 Общая структура сети
Сеть основана на GAN для реализации задачи условного синтеза изображений. Сеть GAN обычно содержит генератор (генератор) и дискриминатор (дискриминатор), где целью генератора является создание реального изображения, чтобы дискриминатор не мог отличить, является ли изображение сгенерированным изображением или реальным изображением. Генератор и Дискриминатор имеют противоположные цели и борются друг с другом во время обучения, поэтому алгоритм называется Генеративно-состязательной сетью. Его общая структура выглядит следующим образом:
Рисунок 2-1 Общая структура сети\
Как видно из рисунка выше, сеть содержитEncoder,Generator,DiscriminatorТри модуля, которые будут представлены отдельно позже. \
2.2 Модуль энкодера
Кодер используется для получения среднего значения и дисперсии, связанных с его распределением, из реального изображения.Структура в основном представляет собой стек некоторых сверточных слоев.Наконец, значения среднего значения и дисперсии выводятся через два полностью связанных слоя, так что получено распределение данных На основе этих данных вектор, полученный из распределения, содержит информацию о стиле входного изображения.
Рисунок 2-2-1 Структура сети энкодера
Вектор, сгенерированный дисперсией и распределением Гаусса, денормализован, и, наконец, получен случайный вектор, содержащий информацию о реальном изображении. Этот вектор, содержащий характеристики стиля входного изображения, используется в качестве входных данных генератора, который может реализовать эффект отображения различных преобразований стиля на следующем рисунке.
Рисунок 2-2-2 Создание изображений разных стилей\
Здесь, в конкурсе Хакатон, из-за ограниченного времени разработки проект «Ту Я» упрощает Кодировщик, поэтому отсутствует функция выбора стиля изображения, которую можно улучшить в последующей разработке.
2.3 Генераторный модуль
Назначение Генератора — изучить функцию отображения, которая может отображать входную маску семантической сегментации (соответствующую левому изображению на рис. 2-1) в фотореалистичное изображение (соответствующее правому изображению на рис. 2-1). Генератор получает случайный вектор, сгенерированный на предыдущем шаге, для создания изображения и постоянно использует несколько масштабов семантических карт для предоставления контекстной информации в процессе генерации. Генерация изображений от грубого к точному достигается за счет использования семантических карт в разных масштабах. Общая структура Генератора показана на следующем рисунке:
Рисунок 2-3-1 Структура генератора\
В Генераторе, чтобы пакетная нормализация (BN) не уменьшала семантическую информацию входного изображения, Генератор использует пространственно-адаптивную денормализацию (SPADE).Вход модуля SPADE является выходом предыдущего слоя и семантических карт. различных масштабов.Вывод предыдущего слоя После BN семантическая карта проходит через слой свертки после изменения размера, а затем проходит через два слоя свертки соответственно.Выходные результаты двух слоев свертки мудро умножаются и складываются с результатами BN для получения выходных данных, как показано на рис. 2-4. SPADE может компенсировать потерю семантической информации, вызванную BN, чтобы сгенерированные изображения могли быть более реалистичными, поскольку семантическая карта обрабатывается слоем свертки для получения дисперсии и среднего значения семантической информации, а затем посредством обратной нормализации. к изображению добавляется операция по генерации семантической информации.
Рисунок 2-3-2 Структура модуля SPADE Модуль SPADE формирует SPADE-ResBlock через структуру, аналогичную остаточному соединению, а модули SPADE-ResBlock складываются и подвергаются повышающей дискретизации, чтобы окончательно сформировать структуру сети генератора.
2.4 Discriminator
Дискриминатор получает тензор, сгенерированный связью между семантическим графом и изображением, и выводит результат оценки после серии обработок. Структура дискриминатора, используемая в этой модели, аналогична форме PatchGAN, используемой в pix2pixHD, которая отличается от обычного дискриминатора GAN. Обычный дискриминатор выводит только оценочное значение подлинности изображения, которое представляет «истину» и «ложь» изображения в целом.PatchGAN разработан в форме полной свертки, а входные данные отображаются на патчи NxN, каждый участок соответствует разным областям Рецептивное поле представляет «истинное» и «ложное» разных областей. Для поля изображения, требующего деталей высокого разрешения и высокой четкости, структура PatchGAN может уделять больше внимания деталям изображения, и ее структура показана на следующем рисунке:
После непрерывного игрового обучения генератора и дискриминатора мы, наконец, вводим семантическую карту, и генератор сгенерирует реальное изображение, соответствующее семантической карте. \
\
\
3. Перспективы будущего
Этот алгоритм может предоставить мощный инструмент для различных профессий, связанных с имиджем, таких как архитекторы, градостроители, ландшафтные архитекторы, разработчики игр, дизайнеры рекламы и т. д. при создании виртуальных миров. Используя ИИ для понимания того, как выглядит реальный мир, эти специалисты могут лучше создавать прототипы идей и быстро изменять синтетические сценарии, позволяя дизайнерам создавать высокоточные прототипы прямо на этапе мозгового штурма.
Статья подготовлена командой Yidian Information Algorithm Team.