Введение
Привет, меня зовут Джек.
В последнее время стал популярен другой алгоритм, интересно, вы его видели? Смотрите эффект прямо!
Такой стабильный портрет ИзображениеMattingАлгоритмов действительно не так много, и он все еще работаетобработка в реальном времени!
Обработка видео, изображений без проблем. Люди сидят дома, записывают видео, и вы можете поставить себя впо всему мирув красоте.
Было много таких алгоритмов искусственного интеллекта для матирования, но этот действительно потрясающий.
Мечта рабочих-мигрантов о кругосветном путешествии также может быть реализована с помощью алгоритмов ИИ.слезы!
2. МОДнет
Текущие исследования портретного матирования вращаются вокруг двух моментов:
- Повышение точности без тримэпа
- В реальном времени и точно
Все это сделал MODNet Автор полностью использует информацию Ground Truth и разделяет обучение модели на три части:Семантическая оценка,Подробный прогнозиСлияние семантических деталей.
Семантическая оценка. Архитектура MobileNetV2 используется для извлечения высокоуровневой семантики через кодировщик (т. е. ветвь MODNet с низким разрешением). Контролируемое обучение для результатов функций высокого уровня Метка использует GT после понижения дискретизации и размытия по Гауссу, а функция потерь использует L2-Loss.
Детальное предсказание: объединяя информацию входного изображения и выходные характеристики семантической части, край портрета индивидуально ограничивается для обучения через кодер-декодер, используя функцию кросс-энтропийной потери. Чтобы уменьшить объем вычислений, структура кодер-декодер является относительно мелкой, и в то же время масштаб исходного изображения обрабатывается после понижения дискретизации.
Слияние семантики и деталей: объедините семантический вывод и вывод деталей, чтобы получить окончательный альфа-результат.Эта часть ограничения использует L1-Loss.
Кроме того, на основе вышеуказанной базовой структуры в этом исследовании также предлагается метод обучения с самоконтролем SOC (согласованность подцелей) и метод обработки задержки кадра OFD (задержка одного кадра).
Среди них стратегия SOC может гарантировать, что архитектура MODNet имеет согласованность между выходными подобъектами при обработке неразмеченных данных; метод OFD может предсказывать альфа-маску в гладкой видеопоследовательности при выполнении задачи портретной рирпроекции видео.
Самоконтролируемое обучение для адаптации к реальным данным(СОЦ):
Чтобы альфа-вывод входного изображения согласовывался с семантическим и подробным выводом, он ограничивается потерями L2 и L1 соответственно.
Среди них первый термин L2 Loss ограничивает семантическую часть, а второй термин L1 ограничивает детальную часть края.
С другой стороны, чтобы исходная подробная информация не была утеряна, вывод подробной информации с самоконтролем и исходный вывод подробной информации обучения с полным учителем подчиняется ограничениям L1.
На этом этапе SOC не нужно маркировать данные, это просто самоконтролируемое изучение сетевой модели.
Метод обработки задержки кадра для повышения стабильности синхронизации(ОФД):
Эта часть в основном устраняет мерцание результатов сегментации видео и улучшает стабильность синхронизации. Операция постобработки должна соответствовать определенным условиям:
которыйтри последовательных кадра, разница между первым и последним кадрами небольшая, а разница между средним кадром и первым и последним кадрами большая.
Как показано на рисунке выше, условиям обработки соответствуют только пиксели красной рамки. Метод постобработки также прост, а результаты промежуточных кадров усредняются между первым и двумя последними кадрами.
В соответствии с эффектом обработки всего изображения:
Исследователи создали эталонный набор данных для фотографических портретов PPM-100 (Photographic Portrait Matting).
Он содержит 100 точно аннотированных портретных изображений с разным фоном.
Чтобы обеспечить разнообразие образцов, PPM-100 также определяет несколько правил классификации, чтобы сбалансировать типы образцов.
Например, включать ли все человеческое тело, размыт ли фон изображения, держать ли другие объекты.
Образцы в PPM-100 богаты фонами и позами, и их можно считать более полным эталоном.
Используя оценочный набор PPM-100, посмотрите на эффект MODNet:
MODNet превосходит другие методы, не использующие Trimap, как по MSE (среднеквадратическая ошибка), так и по MAD (среднее значение).
Хотя его производительность не так хороша, как DIM с Trimap, если MODNet модифицировать на метод, основанный на Trimap.
То есть с Trimap в качестве входных данных его производительность будет лучше, чем DIM на основе Trimap, что еще раз показывает превосходство алгоритма MODNet.
Кроме того, исследователи еще раз демонстрируют преимущества MODNet с точки зрения размера модели и эффективности выполнения.
Среди них размер модели измеряется по общему количеству параметров, а эффективность выполнения тестируется с помощью графического процессора NVIDIA GTX1080 Ti.
Время вывода MODNet составляет 15,8 мс (63 кадра в секунду), что в два раза быстрее, чем FDMPA (31 кадр в секунду).
В заключение, MODNet предлагает простой, быстрый и стабильный алгоритм обработки матирования портрета в реальном времени.
Адрес бумаги:
3. Код
Думаю, некоторым читателям не терпится пропустить объяснение принципа алгоритма и сразу перейти к коду.
К сожалению, алгоритм еще не является открытым исходным кодом.
Но репозиторий проекта создан:
На момент написания скриншота у проекта был только один README, но количество Звезд почти 500, что достаточно, чтобы увидеть признание людей эффекта алгоритма и внимание к реализации кода алгоритма.
Автор упоминал в выпусках,Разместите код и модели за две недели!
Я не могу есть горячий тофу в спешке, и я не боюсь опоздать к хорошей еде, мы можем подождать!
Надеюсь, автор не будет, как я, часто "голубить-голубить".
В-четвертых, болтовня
MODNet не является открытым исходным кодом,без выходных?
Я давно думал, что, конечно же, не отпущу тебя домой с пустыми руками!
навиган тожеСвежеиспеченныйалгоритм. Он может изменить лицо, изменить размер носа, размер глаз, направление взгляда, положение рта, высоту бровей и даже сделать людей вампирами.
Вы также можете изменить размер колес автомобиля, толстую и худую лошадь. Очень веселый ГАН, вы можете играть в него по выходным, если вам интересно.
адрес проекта:
Официальный файл весов находится в Dropbox, и его сложно скачать, поэтому я поставлюФайлы кода и весаОн упакован и размещен на сетевом диске Baidu, а некоторые нужно подобрать самому (код извлечения: jack):
disk.baidu.com/yes/16-u CG IE также…
Завтра выходные, заранее скажем счастливых выходных~
Я Джек, увидимся в следующий раз.
Статья постоянно обновляется, вы можете найти [JackCui-AI] в общедоступной учетной записи WeChat, чтобы прочитать ее впервые, эта статья GitHubGitHub.com/Джек-Чери — это…Он был включен, и есть полные тестовые площадки для интервью на крупных заводах Добро пожаловать в Star.