Применение технологии ИИ в интеллектуальном дизайне плакатов

глубокое обучение компьютерное зрение

задний план

В области визуального дизайна дизайнеры часто тратят много времени на некоторые простые нужды, такие как изменение содержания копии, разработка простого макета плаката и расширение нескольких размеров для разных моделей и стендов. Эти задачи требуют много времени и трудозатрат (5~6 листов/человеко-день), но имеют очень ограниченное влияние на прогресс и рост дизайнеров. С другой стороны, прецизионный маркетинг является основной тенденцией в будущем.На фоне большого трафика стенд с плакатами на главной странице должен отображать эффект «тысячи людей и тысячи лиц», что также выдвигает очень высокие требования к эффективности производства плакатов. Поэтому наша техническая команда по доставке еды Meituan пытается объединить технологию искусственного интеллекта, чтобы помочь дизайнерам избежать таких малопродуктивных и часто повторяющихся задач и в то же время завершить создание плакатных изображений с низкой стоимостью, высокой эффективностью и высоким качеством. В этой статье в качестве примера используется баннер (горизонтальный плакат), чтобы представить некоторые из наших исследований и исследований сочетания дизайна плаката и технологии искусственного интеллекта.

анализировать

Что такое процесс разработки баннера? Мы попытались обобщить наше понимание дизайна баннеров.Процесс проектирования баннеров представляет собой упорядоченный процесс укладки ряда слоев материала с определенными характерными свойствами. Атрибуты объекта здесь включают не только визуальные атрибуты, такие как цвет, форма, текстура и тема, но также и пространственные атрибуты, такие как положение, размер и рант. Какие связи в этом процессе могут быть исследованы машинными алгоритмами? В [1] изучается, как настроить цветовое распределение изображения, чтобы визуальный эффект обложки журнала больше соответствовал визуальным характеристикам человеческого глаза; в [2] на основе этого вводится кадрирование изображения на основе заметности. распознавание и использует метод оптимизации для решения проблемы компоновки. В прошлом году система Alibaba Luban сгенерировала 170 миллионов баннеров на Double Eleven; JD.com также инкубирует системы Linglong и Shakespeare для более интеллектуального копирайтинга и баннеров.

Рис. 1. Цвет обложки и дизайн макета[2]

В некоторых подзадачах в области проектирования можно использовать алгоритмы для выявления законов, лежащих в основе данных (как показано на рисунке 1). Итак, можно ли построить полный алгоритм обучения и систему обработки для решения всех подзадач (сопоставление цветов, макет, словосочетание, генерация) в дизайне баннеров?

Технические решения

Материальный слой — это базовый элемент баннера, который можно охарактеризовать, а порядок укладки нескольких элементов, составляющих баннер, можно сериализовать, поэтому алгоритм фактически учится, «когда выбрать определенный материал, надеть его на где".

Рис. 2 Структура процесса

Как показано на рис. 2, чтобы решить эту проблему, мы разрабатываем планировщик, оптимизатор и генератор для совместного построения процесса обучения и производства дизайна плаката. в:

  1. Планировщик изучает привычки и законы дизайна дизайнера в различных стилях из данных;
  2. Оптимизатор вносит точные коррективы в производительность первого на основе эстетического качества и принципов дизайна;
  3. Наконец, материал выбирается/генерируется генератором и визуализируется в виде карты;
  4. На основе этих трех ссылок библиотека материалов отвечает за управление материалами и маркировку материалов.

библиотека материалов

Как извлечь атрибуты признаков материальных изображений — типичная проблема классификации. В области компьютерного зрения традиционным решением является извлечение низкоуровневых семантических признаков, таких как цвет и градиент изображений [3], и объединение традиционных классификаторов (LR, SVM и т. д.) для достижения классификации. В последние годы методы, основанные на глубоком обучении, постепенно стали общепринятыми, поскольку они могут выражать более сложные семантические признаки [4]. Как показано на рисунке 3, мы извлекаем традиционные низкоуровневые семантические признаки и высокоуровневые семантические признаки на основе CNN, чтобы совместно завершить извлечение атрибутов материальных признаков.

Рис. 3. Библиотека материалов — извлечение элементов

планировщик

После завершения работы с данными материала, как изучить процесс проектирования баннера?

В качестве генеративной модели в последние годы широко используется состязательная генерирующая сеть (GAN) [5], и ее преимущество заключается в том, что она может обучать модели генерации изображений от начала до конца, но в нашем сценарии приложения GAN имеет следующие два проблемы:

  1. Процесс GAN больше похож на процесс «черного ящика»: с точки зрения ввода, хотя такие методы, как Conditional-GAN, могут обеспечить определенную степень условной управляемой генерации, для задачи дизайна баннера его входная информация (копия, целевой стиль , тематическая информация) все еще слишком сложна;
  2. На стороне вывода GAN напрямую генерируют исходные данные (то есть изображения), но им очень не хватает интерпретируемости. Что нам нужно, так это более интуитивно понятная и пояснительная информация, такая как тип материала, цвет, контур, местоположение и т. д.

Как упоминалось выше, процесс проектирования баннера представляет собой процесс последовательного укладки слоев материала. Следовательно, мы можем подогнать этот процесс к порождающей модели последовательности [6]. В процессе моделирования мы рассматриваем материал как слово, постер как предложение, словарный индекс как индекс дискретного признака, а порядок укладки материала можно рассматривать как порядок слов в предложении [7].

Рис. 4 Планировщик — Генерация последовательности

На рис. 4 показана модель генерации последовательности, которую мы используем, вводим информацию о предмете и целевой стиль и выводим последовательность характеристик материала. Чтобы увеличить разнообразие результатов от нескольких путей в процессе прогнозирования, мы вводим потерю объекта, которая оценивает правдоподобие всей последовательности в дополнение к контролируемому обучению выходных данных в каждый момент времени. Как показано на рисунке 5, заимствуя идею SeqGAN, потеря объектов может быть обеспечена дискриминатором [8].

Рисунок 5 SeqGAN[8]

оптимизатор

Планировщик прогнозирует количественные характеристики материала, и для того, чтобы финальное изображение соответствовало эстетическим нормам, требуется процесс постобработки (рис. 6). Решаем эту проблему оптимизатором. По сути, это процесс оптимизации. Благодаря общению с дизайнерами мы разработали некоторые целевые функции, основанные на традиционных концепциях дизайна и эстетических стандартах.Набор действий включает в себя перемещение, масштабирование, регулировку яркости и т. д. в сочетании с методами оптимизации для улучшения визуального эффекта баннера.

Рисунок 6 Оптимизатор

Строитель

Оптимизированная последовательность элементов материала визуализируется генератором на карте. Как показано на рис. 7, для случая, когда библиотека материалов не может получить материалы, соответствующие определенному атрибуту функции, мы разрабатываем метод передачи стиля изображения для реализации передачи функции изображения. Признаками здесь могут быть низкоуровневые признаки, такие как цвет, форма, текстура и т. д., или какие-либо семантические признаки визуального стиля.Для последнего содержание исходного изображения и стиль целевого изображения могут быть объединены в определенное пространство признаков (слой в CNN), чтобы выполнить слияние для достижения передачи стиля [9, 10].

Рисунок 7 Генерация материала

Сценарии применения и расширение функций

Точный маркетинг «тысячи людей и тысячи лиц» — это направление будущих маркетинговых стратегий, выдвигающее очень высокие требования к богатству товарных материалов; с точки зрения расширения прав и возможностей торговцев необходимо также предоставить торговцам более Разнообразный макет плакатов, который также требует, чтобы система имела возможность быстро учиться и расширяться в стиле плаката. В связи с этим, в дополнение к исследованиям традиционных стилей дизайна, мы провели расширенное исследование следующих трех аспектов.

обработка основного изображения

Богатство и эстетическое качество товарных материалов являются очень важной частью изысканного маркетинга и эстетического качества плакатов. Одним из основных требований является возможность сегментации изображения [11, 12]. На основе полностью сверточной сети (FCN), как показано на рисунке 8, мы используем следующие общие методы в области целевой сегментации для достижения целевой сегментации изображений продуктов:

  1. Структура кодировщик-декодер
  2. Атральная извилина
  3. Слияние многомасштабных функций
  4. Двухэтапная сеть тонкой настройки

Рис. 8 Семантическая сегментация и матирование изображений (см. структурную схему в DeepLab v3+[12])

Результаты этого семантического метода сегментации в процессе ручной проверки качества профессиональными дизайнерами обнаружили, что края объекта иногда появлялись явно неровными. После анализа, мы считаем, что есть две причины:

  1. Модель семантической сегментации моделирует проблему как «процесс классификации на уровне пикселей», и естественно предполагается, что категория каждого пикселя является «либо тем, либо другим», и в большинстве моделей сегментации в качестве функции потерь используется кросс-энтропия.
  2. Следовательно, будь то с точки зрения структуры модели (CNN) или с точки зрения функции потерь, модель сегментации будет более склонна к глобальной информации и отбрасывает локальную структурную информацию, что приводит к только грубым результатам сегментации.

С этой целью, как показано на рисунке 8, мы комбинируем метод Image Matting в дополнение к выводу сегментации изображения:

  1. Выполните морфологическое преобразование выходного результата модели сегментации, чтобы сгенерировать трехзначную карту Trimap, представляющую область переднего плана, область фона и неизвестную область соответственно;
  2. Применять обычные методы матирования, такие как байесовский, Close-Form и т. д., брать исходное изображение и изображение Trimap в качестве входных данных и выводить альфа-канал изображения переднего плана;
  3. Матирование может сделать края объектов на переднем плане более гладкими и улучшить визуальное качество (рис. 9).

Рисунок 9 Вырез основного корпуса изделия

Кроме того, основываясь на модели оценки эстетического качества изображения, мы будем отдавать предпочтение изображениям с высокими показателями качества в качестве основного источника материала. Для изображений со средними и низкими оценками мы можем рассмотреть возможность использования идеи Cycle-GAN [13] для разработки сети улучшения изображения на основе полууправляемой и GAN в будущем, а затем украсить и сегментировать изображение для создания Главный Материал.

Расширение шаблона постера

Изучение вышеупомянутых традиционных стилей дизайна относится к широкому стилю дизайна, который требует, чтобы дизайнеры заранее вкладывали много энергии в разделение стилей, сбор и обработку данных. Чтобы быстро адаптироваться к горячим сценам, мы используем технологию поиска изображений (как показано на рис. 10), извлекаем функции CNN и цветовые характеристики изображений материалов и используем евклидово расстояние для измерения подобия материалов, что может снизить стоимость ручная маркировка и реализация на основе автоматического расширения и генерации фиксированных шаблонов (постерных копий).

Рис. 10. Поиск изображения материала и расширение шаблона

Расширение с несколькими разрешениями

В повседневной работе дизайнеры часто тратят много времени на адаптацию нескольких размеров к разным стендам, разным версиям и разным моделям после разработки баннера (как показано на рис. 11). Можно ли использовать алгоритмы для помощи людям в повышении эффективности? Адаптация с несколькими разрешениями выполняется при условии, что материал был определен, и взаимное позиционное соотношение почти определено.Это по сути проблема оптимизации.На основе вышеприведенного оптимизатора макета мы увеличиваем локальное относительное положение и глобальное абсолютное положение В качестве целевой функции используется топологическая связь местоположения. В настоящее время система поддерживает любую адаптацию разрешения в пределах фиксированного соотношения сторон ±30%, и в будущем диапазон адаптации будет расширен.

Рис. 11 Расширение с несколькими разрешениями

Суммировать

В настоящее время наша система интеллектуального проектирования Banner обеспечивает стабильные возможности проектирования для бурения выставок (рекламные места на домашней странице еды на вынос), оформления бизнес-магазинов и других предприятий; дополнительные возможности, такие как обработка материалов, также обеспечивают техническую поддержку для изображений продуктов, таких как еда на вынос. и флеш-распродажи. В последующем мы продолжим изучать расширение традиционных стилей дизайна, семантически связанный анализ цвета и материала, автоматический анализ данных и построение замкнутых циклов обучения самооценке для дальнейшего улучшения возможностей дизайна и применимости алгоритма. , и максимально помочь проектировщикам в повышении эффективности и снижении затрат Время и экономическая стоимость часто повторяющихся работ.

использованная литература

[1] Джаханян А., Лю Дж., Треттер Д., Лин К., О'Брайен-Стрейн Э., Ли С., Лайонс Н., Аллебах Дж. Автоматическое проектирование цветов для обложек журналов. Документ IS&T/SPIE Electronic Imaging, Международное общество оптики и фотоники, 2013 г. [2] Ян С. Ю., Мэй Т., Сюй Ю. К., Жуй Ю., Ли С. П. «Автоматическое создание макета визуально-текстовой презентации», Транзакции ACM по мультимедийным вычислениям, коммуникациям и приложениям, 2017 г. [3] Дэвид Г. Лоу, «Отличительные особенности изображения из масштабно-инвариантных ключевых точек», Международный журнал компьютерного зрения, 2004 г. [4] Алекс Крижевский, Илья Суцкевер, Джеффри Э. Хинтон, «Классификация ImageNet с помощью глубоких сверточных нейронных сетей», NIPS, 2012 г. [5] Гудфеллоу И., Пуже-Абади Дж., Мирза М., Сюй Б., Варде-Фарли Д., Озер С., Курвиль А., Бенжио Ю. «Генеративные состязательные сети», NIPS, 2014. [6] К. Каваками, «Контролируемая маркировка последовательностей с помощью рекуррентных нейронных сетей», Исследования в области вычислительного интеллекта, 2008 г. [7] Миколов Т. «Статистические языковые модели на основе нейронных сетей», 2012 г. [8] Ю. Л., Чжан В., Ван Дж., Ю. Ю. «SeqGAN: состязательные сети, генерирующие последовательности, с градиентом политики», AAAI, 2017. [9] Гэтис Л. А., Экер А. С., Бетдж М. «Передача стиля изображения с помощью сверточных нейронных сетей», CVPR, 2016 г. [10] Ю. Ли, М. Ю. Лю, X. Ли, М. Х. Ян, Дж. Каутц, «Решение в закрытой форме для фотореалистичной стилизации изображения», ECCV, 2018 [11] Лонг Дж., Шелхамер Э., Даррелл Т. «Полностью сверточные сети для семантической сегментации», CVPR, 2015 г. [12] Чен Л. К., Чжу Ю., Папандреу Г., Шрофф Ф., Адам Х. «Кодер-декодер с сложной сепарабельной сверткой для сегментации семантического изображения», ECCV, 2018. [13] Чжу Дж. Ю., Парк Т., Изола П., Эфрос А. А. «Преобразование непарного изображения в изображение с использованием циклически согласованных состязательных сетей», ICCV, 2017 г.

об авторе

Хёсон, присоединившийся к Meituan в июне 2017 года, в настоящее время в основном отвечает за анализ контента, улучшение и создание изображений Meituan на вынос, а также занимается сбором и внедрением технологий, связанных с изображениями.