Алгоритм MODNet, который отправляет вас в «кругосветное путешествие»

алгоритм

Введение

Привет, меня зовут Джек.

В последнее время стал популярен другой алгоритм, интересно, вы его видели? Смотрите эффект прямо!

Такой стабильный портрет ИзображениеMattingАлгоритмов действительно не так много, и он все еще работаетобработка в реальном времени!

Обработка видео, изображений без проблем. Люди сидят дома, записывают видео, и вы можете поставить себя впо всему мирув красоте.

Было много таких алгоритмов искусственного интеллекта для матирования, но этот действительно потрясающий.

Мечта рабочих-мигрантов о кругосветном путешествии также может быть реализована с помощью алгоритмов ИИ.слезы!

2. МОДнет

Текущие исследования портретного матирования вращаются вокруг двух моментов:

  • Повышение точности без тримэпа
  • В реальном времени и точно

Все это сделал MODNet Автор полностью использует информацию Ground Truth и разделяет обучение модели на три части:Семантическая оценка,Подробный прогнозиСлияние семантических деталей.

Семантическая оценка. Архитектура MobileNetV2 используется для извлечения высокоуровневой семантики через кодировщик (т. е. ветвь MODNet с низким разрешением). Контролируемое обучение для результатов функций высокого уровня Метка использует GT после понижения дискретизации и размытия по Гауссу, а функция потерь использует L2-Loss.

Детальное предсказание: объединяя информацию входного изображения и выходные характеристики семантической части, край портрета индивидуально ограничивается для обучения через кодер-декодер, используя функцию кросс-энтропийной потери. Чтобы уменьшить объем вычислений, структура кодер-декодер является относительно мелкой, и в то же время масштаб исходного изображения обрабатывается после понижения дискретизации.

Слияние семантики и деталей: объедините семантический вывод и вывод деталей, чтобы получить окончательный альфа-результат.Эта часть ограничения использует L1-Loss.

Кроме того, на основе вышеуказанной базовой структуры в этом исследовании также предлагается метод обучения с самоконтролем SOC (согласованность подцелей) и метод обработки задержки кадра OFD (задержка одного кадра).

Среди них стратегия SOC может гарантировать, что архитектура MODNet имеет согласованность между выходными подобъектами при обработке неразмеченных данных; метод OFD может предсказывать альфа-маску в гладкой видеопоследовательности при выполнении задачи портретной рирпроекции видео.

Самоконтролируемое обучение для адаптации к реальным данным(СОЦ):

Чтобы альфа-вывод входного изображения согласовывался с семантическим и подробным выводом, он ограничивается потерями L2 и L1 соответственно.

Среди них первый термин L2 Loss ограничивает семантическую часть, а второй термин L1 ограничивает детальную часть края.

С другой стороны, чтобы исходная подробная информация не была утеряна, вывод подробной информации с самоконтролем и исходный вывод подробной информации обучения с полным учителем подчиняется ограничениям L1.

На этом этапе SOC не нужно маркировать данные, это просто самоконтролируемое изучение сетевой модели.

Метод обработки задержки кадра для повышения стабильности синхронизации(ОФД):

Эта часть в основном устраняет мерцание результатов сегментации видео и улучшает стабильность синхронизации. Операция постобработки должна соответствовать определенным условиям:

которыйтри последовательных кадра, разница между первым и последним кадрами небольшая, а разница между средним кадром и первым и последним кадрами большая.

Как показано на рисунке выше, условиям обработки соответствуют только пиксели красной рамки. Метод постобработки также прост, а результаты промежуточных кадров усредняются между первым и двумя последними кадрами.

В соответствии с эффектом обработки всего изображения:

Исследователи создали эталонный набор данных для фотографических портретов PPM-100 (Photographic Portrait Matting).

Он содержит 100 точно аннотированных портретных изображений с разным фоном.

Чтобы обеспечить разнообразие образцов, PPM-100 также определяет несколько правил классификации, чтобы сбалансировать типы образцов.

Например, включать ли все человеческое тело, размыт ли фон изображения, держать ли другие объекты.

Образцы в PPM-100 богаты фонами и позами, и их можно считать более полным эталоном.

Используя оценочный набор PPM-100, посмотрите на эффект MODNet:

MODNet превосходит другие методы, не использующие Trimap, как по MSE (среднеквадратическая ошибка), так и по MAD (среднее значение).

Хотя его производительность не так хороша, как DIM с Trimap, если MODNet модифицировать на метод, основанный на Trimap.

То есть с Trimap в качестве входных данных его производительность будет лучше, чем DIM на основе Trimap, что еще раз показывает превосходство алгоритма MODNet.

Кроме того, исследователи еще раз демонстрируют преимущества MODNet с точки зрения размера модели и эффективности выполнения.

Среди них размер модели измеряется по общему количеству параметров, а эффективность выполнения тестируется с помощью графического процессора NVIDIA GTX1080 Ti.

Время вывода MODNet составляет 15,8 мс (63 кадра в секунду), что в два раза быстрее, чем FDMPA (31 кадр в секунду).

В заключение, MODNet предлагает простой, быстрый и стабильный алгоритм обработки матирования портрета в реальном времени.

Адрес бумаги:

АР Вест V.org/PDF/2011.11…

3. Код

Думаю, некоторым читателям не терпится пропустить объяснение принципа алгоритма и сразу перейти к коду.

К сожалению, алгоритм еще не является открытым исходным кодом.

Но репозиторий проекта создан:

GitHub.com/en KK KE/mod N…

На момент написания скриншота у проекта был только один README, но количество Звезд почти 500, что достаточно, чтобы увидеть признание людей эффекта алгоритма и внимание к реализации кода алгоритма.

Автор упоминал в выпусках,Разместите код и модели за две недели!

Я не могу есть горячий тофу в спешке, и я не боюсь опоздать к хорошей еде, мы можем подождать!

Надеюсь, автор не будет, как я, часто "голубить-голубить".

В-четвертых, болтовня

MODNet не является открытым исходным кодом,без выходных?

Я давно думал, что, конечно же, не отпущу тебя домой с пустыми руками!

навиган тожеСвежеиспеченныйалгоритм. Он может изменить лицо, изменить размер носа, размер глаз, направление взгляда, положение рта, высоту бровей и даже сделать людей вампирами.

Вы также можете изменить размер колес автомобиля, толстую и худую лошадь. Очень веселый ГАН, вы можете играть в него по выходным, если вам интересно.

адрес проекта:

GitHub.com/Горячий цвет Play…

Официальный файл весов находится в Dropbox, и его сложно скачать, поэтому я поставлюФайлы кода и весаОн упакован и размещен на сетевом диске Baidu, а некоторые нужно подобрать самому (код извлечения: jack):

disk.baidu.com/yes/16-u CG IE также…

Завтра выходные, заранее скажем счастливых выходных~

Я Джек, увидимся в следующий раз.

Статья постоянно обновляется, вы можете найти [JackCui-AI] в общедоступной учетной записи WeChat, чтобы прочитать ее впервые, эта статья GitHubGitHub.com/Джек-Чери — это…Он был включен, и есть полные тестовые площадки для интервью на крупных заводах Добро пожаловать в Star.