Глубокое обучение также может порадовать подруг

глубокое обучение

Глубокое обучение в настоящее время имеет очень хорошее применение и исследования в области обработки изображений, в области медицины его можно использовать для оценки рака на очень ранней стадии, в области безопасности его можно использовать для быстрого получения целевых задач. а также обнаруживать и захватывать подозрительных или опасных людей.; В финансовой сфере он может лучше анализировать риски и контролировать риски.

Но вместо того, чтобы сегодня говорить о таких эзотерических знаниях, мы говорим о «черной технологии», которая может иметь программу, чтобы порадовать наших подружек! Этот трюк называется изменением художественного стиля, то есть вы можете щелкнуть и заменить фотографию своей девушки произведением постмодернистского искусства Пикассо (конечно, заменить его или найти, зависит от вашего художественного вкуса).

Миграция художественных стилей - древняя и современная тема, и многие художники поддались копированию произведений других. После появления глубокого обучения эту простую задачу можно выполнить с помощью простого обучения.Далее поговорим о том, как играть в перенос стиля на основе нейронных сетей.

По сути перенос стиля - это метод синтеза содержания картины со стилем другой картины.Например, если дать изображение кота и автопортрет Ван Гога, можно сгенерировать кота с портретом Ван Гога.

Прежде чем глубокое обучение было применено в этой области, инженеры машинного зрения пытались извлечь информацию о текстуре изображений с помощью различных фильтров или традиционных методов машинного обучения, а затем полученные особенности текстуры после некоторых преобразований были возвращены в исходное изображение. образ в новом стиле.

Что делает глубокое обучение, так это автоматизирует и интеллектуализирует весь процесс. Мы используем глубокую структуру сверточной сети для извлечения информации изображения, заменяя предыдущие различные фильтры или методы машинного обучения.​

Во-первых, текущая сверточная нейронная сеть очень хорошо справляется с задачами классификации, поэтому использование популярной сети для обучения позволяет получить много богатой и полезной информации, и эта богатая и абстрактная информация как раз и является основой передачи стиля.

Визуализируя иерархическую структуру CNN, вы обнаружите, что визуализация разных этапов отличается: чем больше нижний слой, тем ближе он к текстурной информации входного изображения, подобно материалу предмета, однако тем выше слой, тем ближе к реальному содержанию (более абстрактный, более заметный), как и тип объекта.

Исследователи предложили на Visualizing CNN 2014, и ниже приведены некоторые из визуализаций:

Основные нейроны заботятся о материале изображения

Глубокие нейроны заботятся о типах объектов

Теперь вся структура становится очень простой и понятной, поскольку CNN используется для извлечения богатой информации о свойствах изображения, это может быть реализовано в основном путем объединения низкоуровневой информации одного изображения с высокоуровневой информацией другого изображения. , и тогда его можно просто реализовать.

Используя информацию о свойствах среднего слоя фреймворка для восстановления содержимого, можно увидеть, что информация, относящаяся к стилю и содержанию, может быть найдена в разных слоях, но чем глубже слой, тем меньше конкретная информация, которую можно получить через обученной сверточной нейронной сети. Сеть извлекает информацию о картинке стиля и картинке контента, а затем объединяет их вместе!

Здесь обученная сеть VGG, очень популярная структура классификации изображений CNN, предварительно настроена с функцией потерь, а затем обратно распространена.

В возврате градиента это не исключение, мы можем решить проблему, установив разумную функцию потерь.

Эта функция потерь представляет собой функцию, которая может измерять расстояние между сгенерированным изображением, изображением стиля и изображением содержимого.

Посмотрите, как мы настроили такую ​​функцию. Поскольку наша глубокая сверточная сеть может измерять функции, связанные с контентом, нам нужно только найти расстояние между векторами функций на этом уровне.​

Изображение есть не что иное, как точка в многомерном пространстве. Мы можем преобразовать его в точку на двумерной поверхности после преобразования нейронной сетью и обработки определенным методом уменьшения размерности. Мы обнаружим, что в этом мир, собаки в стране собак. , кошка в стране кошек. И нам нужно только измерить пространственное расстояние между разными изображениями, чтобы измерить сходство контента.

Затем, как получить стиль, стиль обычно является несколько иллюзорным понятием в глазах художника, что мы обычно называем чувством, например, картины Ван Гога или Моне, вы можете получить его без художественного воздействия.

Однако с точки зрения глубокого обучения было обнаружено, что это чувство связано с корреляцией активности разных нейронов! То есть стиль — это некое статистическое свойство активности нейронов в глубокой сети! Мы спокойно соединили искусство и математику. (Статистика и впрямь язык Бога! Такого не бывает!),

Здесь мы используем математический инструмент, называемый матрицей граммов, который дает меру стиля, измеряя корреляцию между различными каналами одного и того же слоя выходных данных свертки (вычисляя корреляцию между различными каналами для формирования матрицы). Тогда не следует ли нам измерять расстояние между стилями?

Разложите нейроны, соответствующие разным признакам, по слою CNN, как блин, а затем вычислите корреляцию между ними:

Получите матрицу, каждый элемент матрицы соответствует корреляции между различными признаками:

Эта функция потерь представляет собой расстояние между матрицами граммов!

Уведомление, чтобы измерить расстояние между стилями, мы вычисляем и суммируем расстояния матриц граммов между различными уровнями сети, чтобы можно было интегрировать вещи, измеренные на разных уровнях.

Что ж, на этом все готово, просто сложите две функции потерь вместе.

Знание дизайна целевой функции может быть большим, и изменение соотношения a и b может иметь большое значение.Каждый должен обратить внимание на то, что чем выше соотношение стиля изображения, тем более текстурным будет изображение.

Когда вес стиля становится больше, образ становится итальянской плиткой!

Тогда что мы можем сделать? Градиентный спуск! Но обратите внимание, что здесь мы оптимизируем не веса сети, а само изображение, так что мы закончили!

Конечно, это всего лишь один из видов переноса стиля, плюс этого метода в том, что он прост для понимания, а минус в том, что он очень медленный.

Есть еще один метод — заимствовать генеративную сеть и создавать ее напрямую — этот метод быстрее и больше подходит для промышленной упаковки. Позвольте мне показать вам суть этого метода.

Как структура GAN

Ха-ха, таким образом мы можем завершить произведение искусства и подарить его лидерам семьи, но не забывайте, этот случай научил нас большему, чем этот.

Это открывает нам то, что в механизме нашего глубокого нейронного кодирования следы глубокого обучения и ваше восприятие стиля на самом деле поддаются количественной оценке, точно так же, как восприятие содержания, а не то, что некоторые художники говорят: «Абсолютно субъективно и не имеет ничего общего». делать с математикой.

Эта информация может быть не только количественно определена, но и извлечена независимо.Эта информация не существует на конкретном нейроне, а существует распределенным образом между разными масштабами многоуровневой нейронной сети, через каждый слой нейронов.Статистическое выражение регулярности.

Хотя мы еще не знаем, верны ли эти предположения, они дают умный способ понять наши эзотерические механизмы обработки изображений.

Автор этой статьи: Сюй Тие, доктор философии в области машинного обучения Израильского технологического университета Технион, магистр теоретической физики и сложных систем в Высшей нормальной школе, основатель Cruiser и автор статей в известных журналах по неврологии. .