4 алгоритма обнаружения текста на основе сегментации пикселей

Аннотация: Обнаружение текста — это первый шаг в распознавании чтения текста, который оказывает существенное влияние на последующее распознавание текста. В общих сценариях обнаружение и позиционирование текстовых строк может быть достигнуто путем изменения конфигурации общего алгоритма обнаружения целей. В этой статье в основном представлен алгоритм обнаружения текста, основанный на сегментации пикселей.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Технический обзор четырнадцать: алгоритм обнаружения изогнутого текста (2)», Автор: Я хочу помолчать.

Введение

Обнаружение текста является первым шагом в распознавании чтения текста и оказывает значительное влияние на последующее распознавание текста. В общих сценариях обнаружение и позиционирование текстовых строк может быть достигнуто путем изменения конфигурации общего алгоритма обнаружения целей. Однако в сцене с изогнутым текстом общий алгоритм обнаружения цели не может обеспечить точное представление границы текста. Поэтому в последние годы во многих научных работах предлагались новые алгоритмы обнаружения текста сцены, в основном включающие две идеи: 1. Обнаружение текста на основе реорганизации области 2. Обнаружение текста на основе сегментации пикселей. В этой статье в основном представлен алгоритм обнаружения текста, основанный на сегментации пикселей.

PSENet

PSENet — это чистый метод обнаружения текста сегментации, который изначально был разработан для эффективного разделения смежных текстов произвольной формы. Он делает это, предсказывая карты сегментации текста в нескольких масштабах. В частности, как показано на рисунке 1, в качестве примера прогнозируется карта сегментации трех масштабов, а именно (а), (е), (е). Поток постобработки выглядит следующим образом: сначала назначьте метки каждому подключенному компоненту из карты сегментации минимального масштаба (а), а затем расширьте (а) вокруг, чтобы объединить пиксели в (е), которые, по прогнозам, будут текстом. Точно так же объедините текстовые пиксели в (f).

Рисунок 1. Процесс постепенного расширения PSENet

Этот прогрессивный метод слияния соседних текстовых пикселей от маленьких к большим может эффективно разделять соседние текстовые экземпляры, но за счет низкой скорости, которую можно уменьшить с помощью C++.

PAN

PAN в основном разработан из-за того, что существующие методы обнаружения текста слишком медленны для реализации в промышленном применении. Этот метод повышает скорость обнаружения текста с двух сторон. Во-первых, исходя из структуры сети, этот метод использует облегченную сеть ResNet18 в качестве основы. Однако способность ResNet18 к извлечению признаков недостаточно сильна, а полученное рецептивное поле недостаточно велико. Поэтому дополнительно предлагаются облегченный модуль расширения функций и модуль объединения функций, которые аналогичны FPN и могут быть объединены каскадом. Модуль расширения признаков эффективно расширяет возможности модели по извлечению признаков и увеличивает восприимчивое поле, лишь увеличивая небольшое количество вычислений. Во-вторых, улучшите скорость постобработки. Метод обнаруживает текст, предсказывая текстовую область, центральную область текста (ядро) и сходство между пикселями. Используя идею кластеризации, ядро является центром кластера, а текстовые пиксели — это образцы, которые необходимо кластеризовать. Для кластеризации расстояние между ядрами, принадлежащими одному текстовому экземпляру, и векторами подобия соответствующих пикселей должно быть как можно меньше, а расстояния между векторами сходства разных ядер должны быть далекими. На этапе вывода сначала получаются компоненты связности по ядру, а затем по периферии объединяются пиксели, расстояние которых от ядра меньше порога d. Метод обеспечивает скорость обнаружения текста в реальном времени при высокой точности.

Рисунок 2. Структура сети PAN

MSR

MSR предлагается для решения проблемы обнаружения многомасштабного текста. В отличие от других методов обнаружения текста, этот метод использует несколько идентичных основ, понижает разрешение входного изображения до нескольких масштабов, а затем вводит его вместе с исходным изображением в эти основы. богатые многомасштабные функции. Наконец, сеть предсказывает центральную область текста, смещение по координате x и смещение по координате y каждой точки в центральной области текста до ближайшей граничной точки. На этапе вывода каждая точка в центральной области текста смещается в соответствии с предсказанной координатой x/y для получения соответствующей граничной точки, а окончательный текстовый контур представляет собой контур, окружающий все граничные точки.

Рисунок 3. Структура алгоритма MSR

Рисунок 4: Структура сети MSR

Преимущество этого метода заключается в том, что он обладает сильной способностью обнаружения многомасштабного текста, но поскольку область центра текста, определяемая этим методом, уменьшается только в направлении вверх и вниз, но не в направлении влево и вправо, он не может эффективно отдельные горизонтально соседние текстовые.

DB

DB в основном предлагается для существующих методов на основе сегментации, которые требуют использования порогов для бинаризации, что приводит к длительной постобработке и низкой производительности. Этот метод умело разрабатывает функцию бинаризации, которая аппроксимирует ступенчатую функцию, чтобы сеть сегментации могла узнать порог сегментации текста во время обучения. Кроме того, на этапе вывода метод напрямую расширяет определенное соотношение по площади и периметру центральной области текста для получения окончательного контура текста, что дополнительно повышает скорость вывода метода. В целом, БД предоставляет хорошую алгоритмическую основу для методов обнаружения текста на основе сегментации пикселей, что решает проблему пороговой настройки таких алгоритмов, и в то же время имеет хорошую совместимость — разработчики могут ориентироваться на сложности сцены. и оптимизированы для достижения лучшего баланса между производительностью и точностью.

Рисунок 5. Структура сети БД

Алгоритмы, основанные на сегментации пикселей, могут точно предсказать текстовые экземпляры любой формы, а затем для перекрывающихся текстовых областей трудно различить разные экземпляры. Чтобы по-настоящему реализовать эту серию алгоритмов и удовлетворить потребности бизнеса, в будущем необходимо решить проблему перекрывающихся текстов.

Reference

[1]. Wang W, Xie E, Li X, et al. Shape robust text detectionwith progressive scale expansion network[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition. 2019: 9336-9345.

[2]. Wang W, Xie E, Song X, et al. Efficient and accuratearbitrary-shaped text detection with pixel aggregation network[C]//Proceedingsof the IEEE/CVF International Conference on Computer Vision. 2019: 8440-8449.

[3]. Xue C, Lu S, Zhang W. Msr: Multi-scale shape regression forscene text detection[J]. arXiv preprint arXiv:1901.02596, 2019.

[4]. Liao M, Wan Z, Yao C, et al. Real-time scene text detectionwith differentiable binarization[C]//Proceedings of the AAAI Conference onArtificial Intelligence. 2020, 34(07): 11474-11481.

Если вы хотите узнать больше о технологии искусственного интеллекта, добро пожаловать в зону искусственного интеллекта HUAWEI CLOUD.В настоящее время существует программирование искусственного интеллекта Python и т. д.Шесть боевых лагерейБесплатное обучение для всех.

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~