【Перевод】Алгоритм нейронной сети для передачи художественного стиля

искусственный интеллект Нейронные сети

Эта статья переведена с:A Neural Algorithm of Artistic Style"Этот документ можно назвать первооткрывателем передачи стиля изображения. Я выбрал этот документ, потому что мне нужно было перевести документ на иностранном языке. Мой личный уровень ограничен. Если есть какой-либо неуместный перевод или ошибка, пожалуйста, укажите, спасибо ?

В области искусства, особенно в создании картин, люди овладели способностью создавать уникальный визуальный опыт, то есть формируя сложную связь между содержанием и стилем изображения. Алгоритмическая основа этого процесса пока неизвестна, и искусственной системы с аналогичными возможностями не существует. Однако в других ключевых областях визуального восприятия, таких как распознавание объектов и лиц, биомимикрия уже может приблизиться к человеческим возможностям, вдохновленным моделью зрения, называемой глубокими нейронными сетями. Здесь мы представим искусственную систему, основанную на глубоких нейронных сетях, которая может генерировать художественные изображения с высоким качеством восприятия. Система использует нейронные представления для разделения и реорганизации содержания и стиля произвольных изображений, предоставляя нейронный алгоритм для создания художественных изображений. И с точки зрения обнаружения того же самого в искусственных нейронных сетях, которые оптимально работают в биологическом зрении, наша работа обеспечивает алгоритмическое понимание того, как люди создают и воспринимают художественные образы. Кроме того, учитывая поразительное сходство между оптимизированными по производительности искусственными нейронными сетями и биологическим зрением, наша работа открывает путь для алгоритмов, чтобы понять, как люди создают и воспринимают художественные образы.

Наиболее эффективными глубокими нейронными сетями для задач с изображениями являются сверточные нейронные сети. Сверточные нейронные сети состоят из слоев небольших вычислительных блоков, которые иерархически обрабатывают визуальную информацию с прямой связью (рис. 1). Каждый слой единиц можно понимать как набор фильтров изображения, каждый из которых извлекает определенные функции из входного изображения. Поэтому выходные данные данного слоя состоят из так называемых карт признаков: они получаются путем применения различных типов фильтрации к входному изображению.

Когда сверточная нейронная сеть обучается распознаванию объектов, генерируется представление изображения, и по мере повышения уровня обработки информация об объекте становится все более явной. Поэтому по мере того, как слои в нейронной сети обрабатываются шаг за шагом, входное изображение преобразуется в представление, уделяющее все больше внимания фактическому содержанию изображения, а не пиксельным деталям изображения. Изменяя карту объектов, извлеченную из определенного слоя, мы можем напрямую видеть информацию об изображении, содержащуюся в этом слое. Чем выше уровень, тем выше качество содержимого объекта на полученном изображении, и нет точного ограничения по количеству пикселей (чем выше уровень, тем больше пикселей теряется). И наоборот, при изменении формы на низком уровне фактически теряется очень мало пикселей. Поэтому мы обращаемся к высокоуровневым функциям нейронной сети и используем их как представление содержимого изображения.

Чтобы получить представление стиля входного изображения, мы используем пространство признаков для захвата информации о текстуре. Это пространство признаков построено на отфильтрованных ответах каждого слоя нейронной сети (то есть на упомянутой выше карте признаков). В пространственном диапазоне карты объектов (т. е. карта объектов на том же слое) ответы на фильтрацию различны (различны объекты, связанные с картой объектов), и это пространство объектов состоит из этих различий. Попарно сопоставляя карту характеристик каждого слоя, мы получаем статическое многомасштабное представление изображения, которое фиксирует информацию о текстуре изображения, но эта информация о текстуре не является глобальной.

Рисунок 1 :Сверточная нейронная сеть (CNN). Заданное входное изображение представлено серией отфильтрованных изображений на каждом слое сверточной нейронной сети. По мере того, как слои обрабатываются слой за слоем, отфильтрованное изображение непрерывно уменьшается за счет понижения дискретизации (например, с помощью слоя объединения). Это позволяет постепенно уменьшать количество нейронов в каждом слое нейронной сети. ** Рефакторинг контента. ** В случае, если мы знаем только выходные данные этого слоя, изменяя форму входного изображения, мы можем видеть информацию об изображении на разных этапах CNN. Наши 5 слоев в оригинальной сети VGG:conv1_1,conv1_2,conv1_3,conv1_4,conv1_5изменяет входное изображение. (Входное изображение представляет собой ряд домов на приведенном выше изображении, а 5 уровней — это a, b, c, d, e) Мы обнаруживаем, что реконструкция изображения на нижних слоях (таких как abc) идеальна; на более высоких уровнях ( de ), подробная информация о пикселях теряется. То есть в этом процессе мы извлекаем содержимое изображения и отбрасываем пиксели.Рефакторинг стиля.Поверх исходного представления CNN мы строим новое пространство признаков, которое фиксирует стиль входного изображения. Представление стиля вычисляет сходство между различными функциями на разных уровнях CNN. Через разные скрытые слои CNNПодмножествоПо установленному представлению стиля мы восстанавливаем стиль входного изображения. Таким образом создается стиль, соответствующий входному изображению, а глобальное содержимое отбрасывается.

Советы: вышеперечисленные подмножества:

‘conv1 1’ (a)

‘conv1 1’ and ‘conv2 1’ (b)

‘conv1 1’, ‘conv2 1’ and ‘conv3 1’ (c)

‘conv1 1’, ‘conv2 1’, ‘conv3 1’ and ‘conv4 1’ (d)

‘conv1 1’, ‘conv2 1’, ‘conv3 1’, ‘conv4 1’and ‘conv5 1’ (e)

Таким образом, мы также можем использовать информацию, захваченную пространством признаков стиля в каждом слое CNN, для восстановления изображения. Фактически, рестайлинговые функции создают текстурированную версию входного изображения, захватывая цвет, структуру и т. д. изображения. Кроме того, по мере увеличения иерархии также увеличивается размер и сложность структуры изображения. Мы называем это многомасштабное представление какпредставление стиля.

Ключевым выводом этой статьи является то, что представление содержания и стиля в CNN можно разделить. То есть мы можем манипулировать двумя репрезентациями независимо друг от друга, чтобы создавать новые, значимые для восприятия образы. Чтобы продемонстрировать этот вывод, мы генерируем изображения, которые смешивают содержимое и стили из разных исходных изображений. Если быть точным, мы смешали стиль известной художественной картины «Звездное небо» с содержанием фотографии, сделанной в Германии.

Мы ищем изображение, которое соответствует как представлению содержания фотографии, так и представлению стиля художественной картины. Общий план исходной фотографии сохранен, а цвет и локальная структура переданы художественной росписью. Таким образом, оригинальный пейзаж все еще напоминает произведение искусства.

Рисунок 2: Изображены изображения, сочетающие фотографический контент со стилями нескольких известных произведений искусства. Новые изображения создаются путем поиска изображений, которые соответствуют как представлению содержимого фотографии, так и представлению стиля произведения искусства. (Примечание переводчика: ниже приведены источники изображений, которые здесь не указаны)

Как указано в обзоре, представление стиля — это многоуровневое представление, содержащее несколько слоев нейронных сетей. На рисунке, показанном на рисунке 2, это представление стиля включает в себя все слои всей структуры нейронной сети. Стиль также можно определить как более локализованный, поскольку он содержит лишь небольшое количество низкоуровневой структуры. Эти структуры могут создавать различные визуальные эффекты (рис. 3, вдоль строк). Локальная структура изображения значительно увеличивается, делая изображение визуально более гладким и связным, если оно соответствует представлению стиля на более высоком уровне. Поэтому изображения, которые выглядят красиво, обычно представляют собой представления стиля более высокого уровня.

Конечно, содержание изображения и стиль не могут быть полностью разделены. Когда стиль и содержание берутся из двух разных изображений, новое синтезированное изображение не существует, чтобы идеально соответствовать обоим ограничениям одновременно. Однако минимизируемые при синтезе изображений функции потерь включают в себя как содержание, так и стиль, которые хорошо разделены. Таким образом, мы можем плавно сосредоточиться как на содержании, так и на стиле (как видно из одного столбца на рис. 3). Слишком большой акцент на стиле приводит к тому, что изображение соответствует внешнему виду художественной картины, эффективно придавая картине текстуру, но содержание фотографии едва видно (рис. 3, первая колонка). Если слишком много внимания уделять содержанию, мы можем ясно видеть фотографии, но стиль не такой четкий. Поэтому мы должны постоянно согласовывать содержание и стиль изображений, чтобы создавать визуально привлекательные изображения.

Здесь мы предлагаем искусственную нейронную систему, которая обеспечивает разделение содержания и стиля изображения, позволяя преобразовать содержимое одного изображения в стиль любого другого изображения. Мы демонстрируем это, создавая новые художественные образы, сочетающие в себе стили нескольких известных картин с содержанием произвольно выбранных фотографий. В частности, мы получаем нейронные представления содержания и стиля изображений из характерных ответов высокопроизводительных глубоких нейронных сетей, обученных распознаванию объектов.

В предыдущих исследованиях содержание и стиль разделялись путем оценки гораздо менее сложной сенсорной информации. Например, через другой почерк, карты лиц или отпечатки пальцев. И в нашей презентации мы представляем фото в стиле известного произведения искусства. Эта проблема часто сближается с ответвлением компьютерного зрения — фотореалистичным рендерингом. Теоретически это ближе к использованию преобразования текстуры для получения преобразования художественного стиля. Однако эти предыдущие методы в основном полагаются на непараметрические методы и работают непосредственно с пикселями представления изображения. Напротив, обучая глубокие нейронные сети распознаванию объектов, мы выполняем операции корреляции в пространстве признаков, тем самым явно характеризуя высококачественное содержание изображений.

Особенности, создаваемые нейронными сетями при распознавании объектов, ранее использовались для распознавания стилей, чтобы классифицировать произведения искусства в соответствии с периодом их создания. Классификатор был обучен на исходной сети, что мы теперь называем представлением контента. Мы предполагаем, что преобразования в статическом пространстве признаков, такие как наше представление стиля, могут лучше работать при классификации стилей.

Вообще говоря, наш подход к синтезу изображений предоставляет новый и увлекательный инструмент для изучения перцептивных и нейронных представлений об искусстве, стиле и независимом от содержания внешнем виде изображения. В заключение, это настолько захватывающе, что нейронная сеть может изучать представления изображений, а также возможно разделение содержания и стиля изображения. Чтобы дать объяснение, при обучении распознаванию объектов нейронная сеть может оставаться неизменной при всех изменениях изображения и сохранять характеристики объекта.

Методы

Результаты, представленные в этой статье, основаны на обучении сети VGG. Это своего рода сверточная нейронная сеть, производительность которой сравнима с производительностью человека при выполнении стандартных тестовых задач распознавания визуальных объектов, поэтому она получила широкое признание, внедрена и используется многими сторонами. Мы используем пространство признаков, предоставляемое 19-слойной нейронной сетью VGG (16 сверточных и 5 объединенных слоев), и не используем полносвязные слои. Эта модель с открытым исходным кодом и может использоваться в кафе фреймворка глубокого обучения. Для синтеза изображений мы обнаружили, что замена слоев с максимальным объединением на слои со средним объединением улучшила поток градиента и дала лучшие результаты. Итак, в этом случае мы используемсредний пул.

Фактически, каждый уровень сети определяет набор нелинейных фильтров, сложность которого увеличивается с положением уровня в сети. Таким образом, заданное входное изображение\vec{x}, которые кодируются фильтрами на каждом уровне CNN. надоN_lСкрытые слои различных фильтровN_lкарты признаков (одна карта признаков на нейрон). Размер каждой карты объектовM_l,M_l— это размер высоты карты объектов, умноженный на ширину. Итак, слойlРезультат можно сохранить в виде матрицы:F^{l} \in \mathcal{R}^{N_{l} \times M_{l}}F_{i j}^{l}выраженный вlместоположение слояjпервоеiРезультат активации каждого фильтра. Чтобы визуализировать информацию об изображении в разных слоях, мы используем градиентный спуск на белом шуме, чтобы найти другое изображение, которое соответствует выходным данным исходного изображения (изображение на белом шуме на самом деле просто определяет случайный новый график, а затем итеративно перебирает градиентный спуск, постоянно обновляя этот новый график). Так что давайте\vec{p} \text { and } \vec{x}Как исходное изображение, так и результирующее изображение,P^{l} \text { and } F^{l}они на полуlсоответствующие им характеристики. Затем мы определяем квадрат потери ошибки между двумя представлениями признаков.

\mathcal{L}_{\text {content}}(\vec{p}, \vec{x}, l)=\frac{1}{2} \sum_{i, j}\left(F_{i j}^{l}-P_{i j}^{l}\right)^{2}

Производная этой функции потерь: (производная по F)

\frac{\partial \mathcal{L}_{\text {content}}}{\partial F_{i j}^{l}}=\left\{\begin{array}{ll}{\left(F^{l}-P^{l}\right)_{i j}} & {\text { if } F_{i j}^{l}>0} \\ {0} & {\text { if } F_{i j}^{l}<0}\end{array}\right.

В приведенной выше формуле изображение\vec{x}Градиенты могут быть распространены посредством обратного вычисления стандартных ошибок. Таким образом, мы можем изменить исходное случайное изображение\vec{x}, пока не будет сгенерировано в CNN с исходным изображением\vec{p}тот же выход. Пять реконструкций контента на рисунке 1 взяты из оригинального VGG.‘conv1 1’ (a), ‘conv2 1’ (b), ‘conv3 1’ (c), ‘conv4 1’ (d) and ‘conv5 1’(e)

Кроме того, мы вычисляем сходство, вычисляя разницу между результатами вывода разных фильтров. Мы ожидаем получить пространственный вывод входного изображения. Сходство этих признаковG^{l} \in \mathcal{R}^{N_{l} \times N_{l}}Выражать. вG_{i j}^{l}исходный слойlкарта объектов в вектореiиj.

G_{i j}^{l}=\sum_{k} F_{i k}^{l} F_{j k}^{l}

Советы: Объясните, что я сказал выше, то есть поместите художественную картину в CNN.Например, вывод также представляет собой матрицу 14x14x256, а затем для поиска сходства используются 256 карт признаков 14x14.Матрица пространства признаков с 256x256 , G это пространство признаков

Чтобы сгенерировать текстуру, соответствующую стилю данного произведения искусства, мы выполняем градиентный спуск по изображению с белым шумом (то есть случайному новому изображению, которое мы определяем), чтобы найти другое изображение, соответствующее стилю характеристики художественной живописи. И этот процесс градиентного спуска получается путем минимизации среднеквадратической ошибки расстояния между матрицей Грама исходного изображения (художественной живописи) и матрицей Грама сгенерированного изображения (нового изображения). Поэтому пусть\vec{a} \text { and } \vec{x}В качестве исходного художественного изображения и сгенерированного изображения соответственноA^{l} \text { and } G^{l}как слоиlдва стилистических образа. ЭтажlВклад в общую потерю составляет:

E_{l}=\frac{1}{4 N_{l}^{2} M_{l}^{2}} \sum_{i, j}\left(G_{i j}^{l}-A_{i j}^{l}\right)^{2}

А общие потери выражают формулой:

\mathcal{L}_{s t y l e}(\vec{a}, \vec{x})=\sum_{l=0}^{L} w_{l} E_{l}

вw_lВесовой коэффициент, представляющий вклад каждого слоя в общие потери.E_tПроизводную можно вычислить следующим образом:

\frac{\partial E_{l}}{\partial F_{i j}^{l}}=\left\{\begin{array}{ll}{\frac{1}{N_{l}^{2} M_{l}^{2}}\left(\left(F^{l}\right)^{\mathrm{T}}\left(G^{l}-A^{l}\right)\right)_{j i}} & {\text { if } F_{i j}^{l}>0} \\ {0} & {\text { if } F_{i j}^{l}<0}\end{array}\right.

E_lГрадиенты на более низких уровнях можно легко вычислить путем обратного распространения стандартных ошибок. Пять изменений стиля на рис. 1 могут быть сгенерированы путем удовлетворения следующих стилевых представлений этих слоев:‘conv1 1’ (a), ‘conv2 1’ (b), ‘conv3 1’ (c), ‘conv4 1’ (d) and ‘conv5 1’(e).

Для создания новых изображений, сочетающих фотоконтент и художественный стиль, нам необходимо свести к минимуму как потерю стиля, так и потерю контента. Так что давайте\vec{p}Представляет изображение содержимого,\vec{a}Представляя изображение стиля, функция потерь, которую нам нужно минимизировать, выглядит следующим образом:

\mathcal{L}_{\text {total}}(\vec{p}, \vec{a}, \vec{x})=\alpha \mathcal{L}_{\text {content}}(\vec{p}, \vec{x})+\beta \mathcal{L}_{\text {style}}(\vec{a}, \vec{x})

α и β — весовые коэффициенты содержания и стиля при реконструкции изображения соответственно. Для изображения, показанного на рисунке 2, мы сопоставляем представление содержимого на уровне 'conv4_2' и представление стиля на слоях 'conv1 1', 'conv2 1', 'conv3 1', 'conv4 1' и 'conv5 1'. (В этих слояхw_l=1/5, в других слояхw_l=0). В BCD на рисунке 2 отношение α/β равно1 \times 10^{-3}, в E и F на рис. 2 это отношение равно1 \times 10^{-4}, На рисунке 3 показан результат: то есть потеря непрерывной настройки содержимого и стиля вдоль столбца, соответствующий стиль представляет изменения в следующих слоях. Эти слои:‘conv1 1’ (A), ‘conv1 1’ and ‘conv2 1’ (B), ‘conv1 1’, ‘conv2 1’ and ‘conv3 1’ (C),‘conv1 1’, ‘conv2 1’, ‘conv3 1’ and ‘conv4 1’ (D), ‘conv1 1’, ‘conv2 1’, ‘conv3 1’, ‘conv4 1’ 和 ‘conv5 1’ (E). факторw_lвсегда равняется 1, деленному на наличие ненулевого веса потерьw_lколичество активных слоев.

(Ссылка) Советы: α+β=1. Если α относительно велико, новое выходное изображение с большей вероятностью будет соответствовать содержимому, а если β велико, выходное новое изображение с большей вероятностью будет соответствовать стилю. Эти два параметра являются компромиссом, и вы можете настроить лучший баланс в соответствии со своими потребностями. Автор статьи дает разные результаты для настройки параметров, как показано на рисунке 3, четыре столбца слева направо: α/β = 10^-5, 10^-4, 10^-3, 10^-2 , Кроме того, α становится все больше и больше, и изображение действительно показывает содержание фотографии все более и более четко.

Рисунок 3: Работы Василия КандинскогоComposition VIIПодробные результаты стиля. Эти строки показывают результаты сопоставления представления стиля увеличивающегося подмножества слоев CNN (подробности см. в разделе Методы). Мы обнаружили, что локальная структура изображения, захваченная представлением стиля, увеличивается в размере и усложняется при включении признаков стиля из более высоких уровней сети. Это можно объяснить увеличением размера и сложностью структурных рецептивных полей, обрабатываемых в сети. В каждом столбце показаны результаты разного веса реконструкции контента и стиля. Цифры над каждым столбцом обозначают соотношение α/β между акцентом, соответствующим содержанию фотографии, и стилем художественного произведения (подробности см. в разделе «Методы»).

БлагодарностьЭта работа финансировалась Немецким национальным академическим фондом (LAG), Центром вычислительной неврологии Бернштейна (FKZ 01GQ1002) и Немецким международным центром исследований в области неврологии (EXC307) (MB, ASE, LAG).

References and Notes

  1. Крижевский А., Суцкевер И. и Хинтон Г. Э. Классификация Imagenet с помощью глубоких сверточных нейронных сетей, Достижения в области нейронных систем обработки информации, 1097–1105 (2012).Бумаги.Грязевой Бодхисаттва.Цао Цао/бумага/4824-….
  2. Тайгман, Ю., Ян, М., Ранзато, М. и Вольф, Л. Дипфейс: Сокращение разрыва с производительностью на уровне человека при проверке лиц // Компьютерное зрение и распознавание образов (CVPR), Конференция IEEE 2014 г., 1701– 1708 (IEEE, 2014 г.).IE О, explore.IEEE.org/Написать комментарий для отправки/ABS_Ali….
  3. G ̈uc ̧l ̈u, U. & Gerven, M. A. J. v. Deep Neural Networks Reveal a Gradient in the Complexity Neural Representations for Ventral Stream, The Journal of Neuroscience 35, 10005–10014 (2015).URLWoohoo. JN евро SCI.org/content/35/….
  4. Yamins, D. L. K. et al. Performance-optimized hierarchical models predict neural responses in higher visual cortex. Proceedings of the National Academy of Sciences 201403112 (2014). URL woohoo.parnas.org/content/ear….
  5. Cadieu, C. F. et al. Deep Neural Networks Rival the Representation of Primate IT Cortex for Core Visual Object Recognition. PLoS Comput Biol 10, e1003963 (2014). URL stuff.do i.org/10.1371/parity….
  6. Куммерер, М., Тейс, Л. и Бетдж, М. Глубокий взгляд I: Повышение прогнозирования заметности с помощью карт признаков, обученных в ImageNet, На семинаре ICLR (2015 г.) URL/media/publications/1411.1045v4.pdf.
  7. Khaligh-Razavi, S.-M. & Kriegeskorte, N. Deep Supervised, but Not Unsupervised, Models May Explain IT Cortical Representation. PLoS Comput Biol 10, e1003915 (2014). URL stuff.do i.org/10.1371/parity….
  8. Gatys, L. A., Ecker, A. S. & Bethge, M. Texture synthesis and the controlled generation of natural stimuli using convolutional neural networks. arXiv:1505.07376 [cs, q-bio] (2015). URL АР Вест V.org/ABS/1505.07…. ArXiv: 1505.07376.
  9. Mahendran, A. & Vedaldi, A. Understanding Deep Image Representations by Inverting Them. arXiv:1412.0035 [cs] (2014). URL АР Вест V.org/ABS/1412.00…. ArXiv: 1412.0035.
  10. Хигер, Д. Дж. и Берген, Дж. Р. Анализ/синтез текстур на основе пирамид, В материалах 22-й ежегодной конференции по компьютерной графике и интерактивным методам, SIGGRAPH ’95, 229–238 (ACM, Нью-Йорк, США, 1995).сделать i.ACM.org/10.1145/218….
  11. Портилья, Дж. и Симончелли, Е. П. Параметрическая модель текстуры, основанная на объединенной статистике комплексных вейвлет-коэффициентов, Международный журнал компьютерного зрения, 40, 49–70 (2000).lincoln.springer.com/article/10. ….
  12. Тененбаум, Дж. Б. и Фриман, В. Т. Разделение стиля и содержания с помощью билинейных моделей, Нейронные вычисления, 12, 1247–1283 (2000), URL-адрес.Woohoo. MIT Press journals.org/do i/ABS/10. ….
  13. Эльгаммаль А. и Ли К.-С. Разделение стиля и содержания на нелинейном многообразии // Компьютерное зрение и распознавание образов, 2004 г. CVPR 2004 г. Материалы конференции IEEE Computer Society 2004 г., т. 1, I–478. (IEEE, 2004 г.).IE О, explore.IEEE.org/Написать комментарий для отправки/ABS_Ali….
  14. Киприанидис, Дж. Э., Колломосс, Дж., Ван, Т. и Изенберг, Т. Состояние «искусства»: таксономия методов художественной стилизации изображений и видео. Визуализация и компьютер 14 Графика, IEEE Transactions on 19, 866–885 ( 2013 г.).IE О, explore.IEEE.org/Написать комментарий для отправки/ABS_Ali….
  15. Hertzmann, A., Jacobs, C.E., Oliver, N., Curless, B. & Salesin, D. H. Аналогии изображений, В материалах 28-й ежегодной конференции по компьютерной графике и интерактивным методам, 327–340 (ACM, 2001).URLАвторизуйтесь ACM.org/citation.Eat….
  16. Ашихмин, Н. Быстрая передача текстур, IEEE Computer Graphics and Applications 23, 38–43 (2003).
  17. Эфрос, А. А. и Фриман, В. Т. Квилтинг изображений для синтеза и переноса текстур, Материалы 28-й ежегодной конференции по компьютерной графике и интерактивным методам, 341–346 (ACM, 2001).Авторизуйтесь ACM.org/citation.Eat….
  18. Ли, Х., Со, С., Рю, С. и Юн, К. Направленная передача текстур, В материалах 8-го Международного симпозиума по нефотореалистичной анимации и рендерингу, NPAR '10, 43–48 (ACM, Нью-Йорк , Нью-Йорк, США, 2010 г.).сделать i.ACM.org/10.1145/180….
  19. Xie, X., Tian, ​​F. & Seah, HS Feature Guided Texture Synthesis (FGTS) для передачи художественного стиля, В материалах 2-й Международной конференции по цифровым интерактивным медиа в развлечениях и искусстве, DIMEA '07, 44–49 (ACM, Нью-Йорк, США, 2007 г.).сделать i.ACM.org/10.1145/130….
  20. Karayev, S. et al. Recognizing image style. arXiv preprint arXiv:1311.3715 (2013). URL АР Вест V.org/ABS/1311.37….
  21. Адельсон, Э. Х. и Берген, Дж. Р. Пространственно-временные энергетические модели для восприятия движения, JOSA A 2, 284–299 (1985). URLwoohoo.optics info base.org/Jo Say AA/ Frey Tyres…  .
  22. Simonyan, K. & Zisserman, A. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556 [cs] (2014). URL АР Вест V.org/ABS/1409.15…. ArXiv: 1409.1556.
  23. Russakovsky, O. et al. ImageNet Large Scale Visual Recognition Challenge. arXiv:1409.0575 [cs] (2014). URL АР Вест V.org/ABS/1409.05…. ArXiv:1409.0575.
  24. Jia, Y. и др. Caffe: сверточная архитектура для быстрого встраивания функций, Proceedings of the ACM International Conference on Multimedia, 675–678 (ACM, 2014).Авторизуйтесь ACM.org/citation.Eat….