Сложный фон UI2CODE не распознается? Таким образом, инженеры Xianyu создают высокоточные решения.

введение

Извлечение сложного фонового содержимого относится к извлечению определенного содержимого из сложного фона, например, извлечение определенного текста в изображениях, извлечение определенных слоев наложения в изображениях и т. д. Это проблема отрасли: традиционные методы обработки изображений имеют проблемы с точностью и полнотой и не могут решить проблему семантики. Однако основные методы машинного обучения, такие как обнаружение цели, не могут получить информацию о положении на уровне пикселей, в то время как методы семантической сегментации могут только извлекать пиксели, но не могут получить информацию о пикселях до полупрозрачного наложения. Учитывая эти болевые точки, этот документ начинается с бизнес-сценария бизнеса UI2CODE, применяет сеть обнаружения целей для отзыва контента и сеть GAN для извлечения и восстановления определенного контента переднего плана в сложных фонах.

Технологический поток

Процесс обработки сложного фона делится на следующие этапы.

Отзыв содержимого: отзыв элементов через сеть обнаружения целей, то есть нужно ли элементам выполнять фоновые операции извлечения.
Региональная оценка: в соответствии с визуальными методами, такими как градиенты, оценивается, является ли область сложной.
Простые регионы: найдите фоновые участки градиентным способом.
Сложные регионы: извлечение контента с использованием сети SRGAN.

Отзыв контента

Мы используем сети обнаружения целей для извлечения контента, например, fast-tcnn или mark-rcnn. Как показано ниже

Региональное решение

Вычислите окружающий градиент в соответствии с оператором Лапласа, чтобы определить, является ли область сложной областью.

простой фон

Ограничения самой модели обнаружения игровых целей приведут к невозможности достижения такой точности, как уровень ограничения скорости, поэтому положение необходимо скорректировать. Если это простой фон, положение идеи может быть скорректировано на основе градиента.Конкретный метод расчета выглядит следующим образом.

сложный фон

Для сложных фонов верхнее изображение является исходным изображением, а нижнее изображение — извлеченным текстовым блоком.

В это время извлеченный кадр не совсем правильный, тогда алгоритм машинного зрения, такой как градиент, уже не может корректно корректировать положение. В этой статье предлагается метод, основанный на сети GAN, для решения проблемы извлечения сложного фонового контента.Основная структура сети показана на следующем рисунке.

Почему стоит выбрать сеть GAN?

1. На основе сети srGAN сеть добавляет функцию потерь карты признаков, которая может хорошо сохранять высокочастотную информацию и лучше сохранять края. Функция потерь карты признаков показана на следующем рисунке.

2. Из-за наличия состязательных потерь частота ложных срабатываний может быть значительно снижена.

3. Наиболее важным моментом является то, что в сцене с прозрачностью сеть семантической сегментации может только «извлекать» элементы, но не может «восстанавливать» элементы. Сеть GAN может не только восстанавливать ситуацию с пикселями, когда они не накладываются при извлечении элементов.

Блок-схема обучения сети

Оптимизация сети GAN для бизнес-сценариев

1. Поскольку мы не являемся сценариями Super-Relize, модуль Pixelshuffler отберенен

2. Поскольку сцена более сложная, вы можете ввести DenseNet и углубить сеть для повышения точности.

3. Функция потери контента не идеальна для подавления шума неправильной оценки, поэтому штраф за ошибочную оценку увеличивается, как показано на следующем рисунке.

Результаты Рисунок 1

Результаты Рисунок 2

заключительные замечания

В этой статье, путем введения сложного извлечения фонового содержимого, мы предлагаем метод, который использует машинное обучение в качестве основного метода и обработку изображений в качестве дополнения для точного получения определенного содержимого переднего плана и получения результатов распознавания с высокой точностью, высокой полнотой и высокой точностью. точность позиционирования.

На следующем рисунке показана ситуация с традиционным алгоритмом grabcut, методом семантической сегментации deeplab и различными индикаторами этого метода.

После демонстрации данных мы нашли момент, достойный дальнейшей оптимизации — требуется большое количество выборок для адаптации к разным масштабам признаков, и инвестиции здесь будут относительно большими. Как еще повысить эффективность маркировки, мы поделимся с вами в следующих сериях статей.

связанное предложение

Открытый исходный код | Fish Redux, платформа приложений Flutter, насчитывающая 200 миллионов пользователей

Тяжелая серия статей | «UI2Code» интеллектуально генерирует код Flutter

Много старого кода = чрезмерная связь = если еще? Инженеры Али исправляют старый код вот так

Больше проектов с открытым исходным кодом, ключевые идеи, глубокая интерпретация, доставка резюме

Добро пожаловать, чтобы следоватьБесплатная рыбная технология