Откройте ящик Пандоры, который путает виртуал и реальность
- Краткое введение в генеративно-состязательные сети
Соавтор: Ван Сяопин из Jichain Technology AI Lab
Вы когда-нибудь представляли себе такую картину: когда вы сидите перед компьютером, пробуя ароматный чай, вы с большим интересом просматриваете замечательные картинки на веб-странице, от выразительных и четких лиц до красочных пейзажей, милые животные с разными позами и т.д., все так радует глаз! Однако когда вам в следующий раз вдруг скажут, что все это компьютерная виртуальная фотография, вы опешите и не поверите? Ведь эти фотографии такие живые! В настоящее время такая ситуация уже не является мечтой.Например, thispersondoesnotexist.com является таким веб-сайтом генерации виртуальных лиц.Когда пользователь заходит на веб-сайт, каждый раз, когда пользователь обновляет веб-сайт, он может получить реалистичное «лицо», которое мгновенно генерируется веб-сайтом Фото, однако, как следует из названия сайта: На самом деле этого человека не существует! Так как же достигается этот чудесный эффект из ничего? На странице также указано в правом нижнем углу: «Произведено GAN (генеративно-состязательной сетью)». Хорошо, официально дебютировал главный герой этой статьи, генеративно-состязательная сеть (GAN).
В 2014 году Ян Дж. Гудфеллоу из Университета Монреаля в Канаде официально предложил генеративно-состязательные сети в статье «Генеративно-состязательные сети».Основная идея основана на двух моделях: генератор и дискриминатор. Задача дискриминатора состоит в том, чтобы судить, является ли данное изображение реальным или поддельным, в то время как задача генератора состоит в том, чтобы генерировать изображения, похожие на реальное изображение, чтобы максимально обмануть дискриминатор. Например, генеративная модель похожа на банду, занимающуюся фальшивомонетничеством, задачей которой является производство и использование фальшивой валюты, а дискриминационная модель похожа на финансовую полицию, в обязанности которой входит обнаружение и расследование фальшивых денег. Исходная формула GAN показана в следующей формуле: G и D — генератор и дискриминатор соответственно, x — реальные данные, а z — шумовые данные, При ограничениях максимизации и минимизации функции значения V, Генератор и дискриминатор обучаются попеременно Оптимизация, в процессе генератор непрерывно улучшает способность к «подделке», пока дискриминатор не сможет отличить настоящие монеты от поддельных монет, после чего обучение GAN завершается.
Почему по сравнению с другими моделями GAN привлекла столько внимания после того, как была предложена? По сути, реальная сила GAN заключается в создании нового режима состязательного обучения, который значительно улучшает способность к обучению распределению данных, и даже в определенной степени можно считать, что он дает машине образное мышление. именно из-за этой мощности GAN был выбран журналом MIT Technology Review в качестве одной из десяти лучших прорывных технологий в мире в 2018 г. Рост различных улучшений или инновационных исследований также способствовал быстрому развитию технологии GAN. В следующей статье будет кратко представлено развитие GAN, В целом, это развитие в основном отражено в следующих аспектах:
Во-первых, преобразование стиля изображения
Более ста лет назад, когда Моне написал эту картину маслом на берегу Сены весной, какая сцена предстала перед ним в то время? Так ли прекрасен реальный пейзаж, как его описывает картина? Очень сложно серьезно ответить на этот вопрос, потому что мы не можем путешествовать во времени и пространстве на машине времени, чтобы чувствовать то же самое, но мы можем использовать ГАН с функцией передачи стиля, чтобы преобразовать картину маслом Моне в фотостиль, поэтому что мы можем чувствовать это приблизительно реальная сцена в то время. Крутой эффект передачи стиля заставляет GAN сиять, В этом отношении типичными являются pix2pix, CycleGAN, DiscoGAN, DualGAN и т. Д. Среди них pix2pix решает проблему передачи стиля при обучении парных изображений, а CycleGAN, DiscoGAN, DualGAN Высота набора решает проблему переноса стиля обучения непарных изображений, определяя функцию потери цикла.Хотя эффект переноса стиля немного уступает pix2pix, он экономит много времени на подготовку образца, что значительно снижает необходимость помещать GAN в практика порог для применения.
Парные тренировочные изображения (pix2pix) и непарные тренировочные изображения (CycleGAN)
CycleGAN
При практическом применении передачи стилей также возникли новые проблемы, например: будь то Pix2Pix или CycleGAN и т. д., все они представляют собой преобразования из одного поля в другое. необходимо обучать новую модель с нуля для каждого преобразования домена, что, несомненно, будет довольно хлопотным и неэффективным в реальном использовании.Ввиду этого StarGAN появился как того требует время, и его вклад заключается в том, чтобы предложить эффективное многодоменное преобразование. единая алгоритмическая структура. На следующем рисунке показан эффект StarGAN.В рамках одной и той же модели могут выполняться различные задачи преобразования стиля изображения, такие как изменение цвета волос, пола, возраста, цвета кожи и т. д.
StarGAN
2. Генерация изображений сверхвысокого разрешения
Сверхразрешение - это классическая область компьютерного зрения, целью которой является восстановление соответствующих изображений с высоким разрешением из наблюдаемых изображений с низким разрешением. Оно имеет важное прикладное значение во многих областях, таких как спутниковые изображения дистанционного зондирования и восстановление изображений. Соответствующие исследования получили дальнейшее развитие. способствовал развитию технологий в этой области. Типичными являются PG-GAN, BigGAN, pix2pixHD, SR-GAN и т. д. Например, в документе PG-GAN от NVIDIA предлагается обучать GAN путем постепенного увеличения генератора и дискриминатора от исходного низкого разрешения 4x4. Сначала по мере обучения добавлялись новые слои для моделирования все более и более мелких деталей, кульминацией которых стало разрешение 1024x1024, в результате чего получались потрясающие изображения.
PG-GAN
3. Аспекты интерпретации генерации
Хотя механизм состязательного обучения GAN привел к удивительным эффектам генерации изображений, в начале процесса генерации GAN отсутствуют эффективные методы вмешательства, поэтому исследователи предприняли ряд усилий в этом отношении, пытаясь использовать контрольные переменные. контролировать процесс генерации.Репрезентативные работы включают InfoGAN, CGAN и т. д. Среди них InfoGAN предлагает разложить входные данные генератора на несжимаемый шум и потенциальные управляющие переменные с различными значениями, а затем направлять генерацию, настраивая потенциальные управляющие переменные. генерирует изображения с разной ориентацией и разной шириной шрифта.
InfoGAN
Исследователи Массачусетского технологического института добились визуального понимания GAN (например, диаграмм GAN DISSECTION), разложив сеть и наблюдая за влиянием конкретных единиц на сгенерированные результаты при активации или закрытии, а затем добились эффективного рисования на этой основе, только с помощью простой операции мыши. , GAN может рисовать или стирать деревья, траву, двери, небо, облака, кирпичные стены, купола и т. д., когда проводишь мышью.
GAN DISSECTION
4. Другие аспекты
В дополнение к вышеперечисленным аспектам комбинация GAN и других технологий также показала неплохие результаты.Например, исследователи из Калифорнийского университета в Беркли использовали технологию оценки позы и GAN для достижения передачи действия «делай, как я» между разные люди, даже если вы совсем не умеете танцевать, но с этой технологией вам нужно только заранее ввести танцевальное видео хорошего танцора с изящной осанкой, а затем ввести свое собственное видео случайного действия. оценка, сетевое обучение и генерация видео, вы можете сразу же стать абсолютным героем, танцующим в созданном видео. Так с помощью ГАН танцевать нельзя? несуществующий!
do as I do
Другие включают starGAN-vc, который может осуществлять преобразование голоса между разными людьми, повышать стабильность обучения, например WGAN, WGAN-GP, SNGAN, и защищать конфиденциальность, например Пенсильванский университет, использующий виртуальные клинические данные, сгенерированные AC- GAN, чтобы поделиться, чтобы удовлетворить потребность в защите конфиденциальности участников и многое другое.
В то время как быстрое развитие технологии GAN принесло нам много захватывающих результатов, ее превосходная способность генерировать изображения также мешает нам давать точные ответы на такие вопросы, как «то, что представлено перед вами, виртуально или реальность?», поэтому, видеть не обязательно верить. Как только эта способность GAN будет использована теми, кто имеет скрытые мотивы, это вызовет непредвиденные негативные последствия, например, видео с изменением лица на основе GAN, появившееся в Интернете в конце 2017 года, вызвало панику и шок в мире. Ящик Пандоры, стирающий границу между виртуальным и реальным, открыт, людей нужно направлять на правильное и разумное использование этой технологии с целью пользы учебы, работы и жизни, и пусть волшебный ящик постоянно приносит нам сюрпризы и надежду!