Сценарии применения
В сценарии сделки с автомобилем часто необходимо идентифицировать водительские права пользователя.В этой задаче идентификации для получения лучшего результата требуется комбинация нескольких моделей. Среди них обнаружение страницы, как первое звено в задаче идентификации, также является чрезвычайно важным звеном. Сегментация поверхности AB водительского удостоверения позволяет значительно избежать обнаружения нерелевантных символов и повысить точность общей задачи распознавания. В этой статье будет представлено применение U2Net в задаче обнаружения документов.
- Ссылка на бумагу:АР Вест V.org/ABS/2005.09…
- Адрес на гитхабе:GitHub.com/Вторжение в снежный храм/U…
один. U2Net предлагает предысторию
Обнаружение важности направлено на сегментирование наиболее привлекательного содержимого изображения, и этот метод можно применять в различных областях, таких как сегментация изображения и отслеживание. Текущая основная сеть в основном имеет следующие проблемы:
- Сосредоточьтесь только на локальных деталях и не включайте информацию о глобальном контрасте;
- Очень зависит от ResNet, VGG и других магистралей;
- Разрешение извлеченной карты объектов слишком велико, что приводит к высокому потреблению вычислительных ресурсов;
два. Структура сети U2Net
1. Инфраструктура РСУ-Л
Вдохновленный unet, автор предлагает Residual U Block Layer (RSU-L), где L представляет количество уровней кодирования.
Рисунок 1: Структура RSU-L (источник изображения, статья автора)
На рисунке 1 зеленая часть представляет Conv+BN+Relu, синяя часть представляет собой Downsample+Conv+BN+Relu, а красная часть представляет Upsample+Conv+BN+Relu.Можно видеть, что инфраструктура по существу представляет собой отдельный U2Net.
Стремясь к тому недостатку, что обычно используемая свертка 3x3 не может эффективно извлекать глобальную информацию, в этой статье указывается, что модель может эффективно получать глобальную информацию из неглубоких карт признаков с высоким разрешением и увеличивать восприимчивое поле. При этом у L есть три варианта 3, 5 и 7, которые можно выбирать для разных задач, но в целом можно выбрать 7.
По сравнению с обычно используемой ResNet, как показано на рис. 2, композиция функций, предоставляемая этой структурой, представляет собой многомасштабную функцию + локальную функцию, в то время как ResNet может предоставлять только локальную функцию + исходную функцию. Из-за увеличения количества функций это неизбежно приведет к увеличению накладных расходов на вычислительные ресурсы, поэтому автор добавляет много слоев максимального пула, чтобы исключить некоторые повторяющиеся функции.
Рисунок 2: Сравнение с ResNet (документ автора источника изображения)
2. Структура сети U2Net
Рисунок 3: Сеть U2Net (документ автора источника изображения)
Общая структура сети показана на рис. энкодера декодера
3. Функция потерь
Функция потерь показана на рисунке 3. Автор выполняет расчет потерь на выходе каждого декодера.После объединения всех выходных результатов выполняется расчет потерь. Формула расчета функции потерь:
Сумма представляет собой вес каждой потери, соответствующей потере на рисунке 5, соответствующей потере, и для каждого элемента для расчета используется стандартная двоичная функция кросс-энтропийных потерь:
Где (r, c) представляет координаты пикселя, (H, W) представляет размер изображения, которые представляют реальное значение пикселя и значение пикселя сгенерированной карты вероятностей соответственно.
три. Производительность модели
Автор дает кривые полноты и точности U2Net и других сетей в общедоступном наборе данных, как показано на рисунке 4.
Рис. 4. Производительность общедоступных наборов данных (документ автора источника изображения)
Автор также приводит пример результатов испытаний, как показано на рисунке 5.
Рисунок 5: Конкретный дисплей (авторская статья источника изображения)
Четыре. обучение и сравнение
В этой статье сравниваются только связанные индикаторы для deeplabv3.
1. Состав данных водительского удостоверения
Существует 3760 обучающих наборов и 939 проверочных наборов, которые случайным образом делятся в соответствии с соотношением 8:2, а 100 тестовых наборов выбираются из изображений Baidu. Входные данные — исходное изображение + маска.
2. Как тренироваться
Для U2Net исходные данные и маска разделены по поезду и маске, Состав набора данных следующий:
|--dataset
|----train
|----train_mask
|----val
|----val_mask
3. Сравнение с deeplabv3
Чтобы правильно сравнить эффекты модели, мы отменили все улучшения данных двух моделей и обучили только 100 раундов, размер партии был установлен на 8, среда обучения была python3.6.12, pytorch1.6, и каждая модель учитывалась за один 2080ti.
Model size | Param size | GFLOPs | mIOU | Infer time | |
---|---|---|---|---|---|
U2Net | 168.27M | 44.01M | 150.67G | 0.937 | 0.43s |
Deeplav3-Resnet101 | 226.85M | 58.63M | 249.42G | 0.898 | 0.31s |
注:GFLOPs与Param size采用ptflops库计算
прецедент
Рис. 6. Тестовый образец (загружен из публичного поиска в Интернете, обфусцирован)
Слева направо реальные картинки, маска, сгенерированная deeplabv3, и маска, сгенерированная u2net. Хорошо видно, что U2Net работает лучше, а маска сегментации точнее.
Компания Nanjing Sanbaiyun Information Technology Co., Ltd. (Che 300) была создана 27 марта 2014 г. Это предприятие мобильного Интернета, базирующееся в Нанкине и в настоящее время расположенное в Нанкине и Пекине. После 7 лет накопления совокупное количество оценок достигло 5,2 миллиарда раз, и оно завоевало расположение многих высококачественных инвестиционных институтов в стране и за рубежом, таких как Sequoia Capital и SAIC Industrial Fund.
Sanbaiyun — отличный независимый сторонний поставщик услуг SaaS для автоматических транзакций и финансовых услуг, основанный на искусственном интеллекте, с автоматическим ценообразованием транзакций и стандартизацией автоматического контроля финансовых рисков в качестве основных продуктов.
Горячий набор на каждую позицию, добро пожаловать в Sanbaiyun, станьте свидетелями энергичного развития автомобильной промышленности вместе и с нетерпением ждем возможности идти с вами рука об руку!
Официальный сайт:www.sanbaiyun.com/
Почта:hr@che300.com