Интерпретация статьи 丨 Переосмысление модели распознавания строк текста

Аннотация: В этой статье рассматриваются два декодера (CTC[1] и Transformer[2]) и три модуля кодировщика (двунаправленный LSTM[3], Self-Attention[4] и GRCL[5]) с помощью большого количества Эксперименты сравнивают точность и производительность широко используемых сценариев и общедоступных наборов данных рукописного текста.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Интерпретация диссертации 27: переосмысление модели распознавания строк текста», Автор: wooheng.

1. Введение

В данной статье исследуется проблема распознавания строк текста. В отличие от большинства методов, ориентированных на определенные домены (например, текст сцены или рукописные документы), в этой статье исследуется общая проблема общей архитектуры, которая может извлекать текст из любого изображения независимо от формы ввода данных. В этой статье исследуются два декодера (CTC[1] и Transformer[2]) и три модуля кодировщика (двунаправленный LSTM[3], Self-Attention[4] и GRCL[5]), которые широко используются в обширных экспериментах. Производительность сравнивается на общедоступных наборах данных сцен и рукописного текста. В этой статье показано, что комбинация, которой до сих пор уделялось мало внимания в литературе, а именно комбинация кодировщика с самостоятельным вниманием и декодера CTC плюс структура языковой модели, показывает высокую точность и вычислительную сложность при обучении на общедоступных и внутренних data превосходит все другие комбинации. В отличие от более распространенных моделей на основе Transformer, эта архитектура может обрабатывать входные данные произвольной длины.

图1 数据集中的文本行示例图像，其中包含各种长度的手写、场景文本和文档文本图像。

Рис. 1. Пример изображения текстовых строк в наборе данных, содержащем изображения почерка, текста сцены и текста документа различной длины.

2. Структура модели

Большинство современных алгоритмов распознавания строк текста состоят из трех основных компонентов: сверточной основы для извлечения визуальных признаков, последовательного кодировщика для агрегирования признаков из частей или всей последовательности и, наконец, декодера, основанного на выводе кодировщика. окончательная транскрипция. В работе исследуются различные комбинации кодеров и декодеров с фиксированными магистралями и предлагается оптимальная архитектура модели, структура которой показана на рис.

图2 模型结构。输入图像在馈送到主干之前被分割成带有双向填充的重叠块。生成的序列特征的有效部分在馈送到解码器之前被级联。

Рисунок 2. Структура модели. Входное изображение сегментируется на перекрывающиеся блоки с двунаправленным дополнением перед подачей в магистраль. Действительные части сгенерированных признаков последовательности объединяются перед подачей в декодер.

2.1 Магистральная сеть

Основой этой статьи является изометрическая архитектура [6], в которой в качестве строительного блока используется слой узкого места инверсии слияния, вариант слоя узкого места инверсии [7], который заменяет разделяемую структуру полной сверткой для повышения эффективности вывода модели. Изометрическая архитектура поддерживает постоянное внутреннее разрешение на всех уровнях, обеспечивает низкий объем памяти для активации и упрощает настройку модели для выделенного оборудования с максимальным использованием. Рисунок 3 детализирует сеть. Он состоит из пространственно-глубинного слоя с размером блока 4, за которым следуют 11 объединенных инверсионных узких мест с ядрами 3×3 и скоростью расширения 8×, с 64 выходными каналами. Последний полностью сверточный остаточный блок применяется для уменьшения высоты тензора до 1, который подается в сеть кодировщика в качестве входных данных.

图3 实验中使用的主干。首先通过空间到深度操作将输入灰度图像的分辨率降低4倍，然后应用11个融合反转瓶颈层，扩展速率为8和64个输出通道，并使用残差卷积块将输出投影到高度为1的张量中。

Рис. 3. Магистраль, использованная в эксперименте. Сначала уменьшите разрешение входного изображения в градациях серого в 4 раза с помощью операции пространственно-глубинного преобразования, затем примените 11 объединенных инверсионных слоев узкого места с коэффициентами расширения 8 и 64 выходных каналов и используйте остаточные блоки свертки для проецирования выходных данных на высота в тензоре 1.

2.2 Энкодер

Кодировщики собственного внимания широко используются во многих задачах НЛП и зрения. Как задача преобразования изображения в последовательность, распознавание строк текста не является исключением. Кодировщики с автоматическим вниманием могут эффективно выводить функции, суммирующие всю последовательность, без использования повторных соединений. Выход магистральной сети подается на кодировщик. Закодированная функция Y рассчитывается как:

Где три параметра W из Q, K и V являются параметрами обучения размера d × d, которые проецируют входную последовательность X в запросы, ключи и значения соответственно. Закодированный признак Y представляет собой выпуклую комбинацию вычисленных значений V, а матрица сходства вычисляется скалярным произведением запросов и ключей.

В этой статье используются 4 независимые головки, каждая из которых использует механизм внимания с несколькими головками. Размер скрытого слоя установлен на 256. Чтобы предотвратить переобучение, отсев применяется после каждого подслоя, установленного на 0,1. Добавлено синусоидальное кодирование относительного положения, чтобы энкодер знал о положении. В наших экспериментах мы сравниваем точность и сложность различных вариантов модели, складывая k слоев кодировщика с числом {4, 8, 12, 16, 20}.

2.3 Декодер

После декодера CTC добавляется языковая модель, а языковая модель N-грамм на основе символов используется для обучения весов оптимизированных функций признаков с минимальной частотой ошибок.

2.4 Сегментация изображения

Из-за влияния скалярного произведения внимания на уровне собственного внимания сложность модели и объем памяти кодировщика растут квадратично в зависимости от ширины изображения. Это может привести к тому, что изображения будут слишком длинными, а набор текста будет проблематичным. Уменьшение длинных изображений позволяет избежать этих проблем, но неизбежно влияет на точность распознавания, особенно для узких или близко расположенных символов.

В этой статье предлагается простая, но эффективная стратегия разбиения на фрагменты, которая гарантирует, что модель хорошо работает с произвольными широкими входными изображениями без сжатия (см. рис. 2). В этой статье размер входного изображения изменяется до 40 пикселей в высоту с сохранением соотношения сторон. Затем строки текста разбиваются на перекрывающиеся блоки с двунаправленным отступом, чтобы уменьшить возможные эффекты границ (обратите внимание, что последний блок имеет дополнительный отступ, чтобы обеспечить однородную форму для пакетной обработки). Этот документ передает перекрывающиеся блоки в кодировщики магистрали и внутреннего внимания для создания последовательных функций для каждого блока. Наконец, объедините допустимые области обратно в полную последовательность, удалив области заполнения.

Этот подход разбивает длинные последовательности на k более коротких фрагментов, эффективно снижая сложность модели и использование памяти слоями внутреннего внимания в k раз. Эта стратегия используется как во время обучения, так и во время логического вывода, чтобы обеспечить согласованность поведения.

3. Экспериментальные результаты

На рисунке 4 показаны экспериментальные результаты, которые показывают, что декодер CTC в сочетании с кодировщиком Self-Attention плюс структура языковой модели превосходит все другие комбинации с точки зрения точности и вычислительной сложности при обучении на общедоступных и внутренних данных.

图4 对选择模型结构在手写数据集和场景文本数据集上的评估结果。“Rect.”列指示模型是否包括矫正模块。“S-Attn”、“Attn”和“Tfmr Dec.”分别代表自我注意力机制、注意力机制和Transformer解码器。“MJ”，“ST”和“SA”分别代表MJSynth、SynthText 和SynthAdd数据集。

Рисунок 4. Результаты оценки выбранных структур модели на наборах данных рукописного ввода и наборах данных текста сцены. Столбец «Rect.» указывает, включает ли модель блок выпрямления. «S-Attn», «Attn» и «Tfmr Dec.» означают «Механизм самоконтроля», «Механизм внимания» и «Трансформаторный декодер» соответственно. «MJ», «ST» и «SA» представляют наборы данных MJSynth, SynthText и SynthAdd соответственно.

4. Вывод

В текстовой работе исследуется производительность репрезентативных архитектур кодировщика/декодера в качестве обычных распознавателей строк текста. При сравнении декодеров было обнаружено, что CTC в сочетании с языковыми моделями дает в целом превосходную производительность. В отсутствие LM конкурируют CTC и Transformer, CTC доминирует в одних случаях (GRCL), а Transformer доминирует в других (BiLSTM). С другой стороны, при сравнении кодировщиков SelfAttention всегда работает лучше, и оба декодера одинаково хорошо работают без LM. Интересно, что лучше всего работает неизученная модель SelfAttention/CTC+LM. В документе также показано, что декодеры, основанные на внимании, все еще могут извлечь выгоду из моделей внешнего языка. Исследование эффективности моделей внешнего языка с декодерами-трансформерами будет будущей работой.

В работе также рассматривается проблема, возникающая из-за наличия длинных изображений в распределении выборки. Необходимо учитывать как минимум два новых аспекта: эффективность и производительность. Из-за вторичного масштабирования длины изображения длинные изображения влияют на эффективность модели с использованием кодировщиков внутреннего внимания. В этой статье показано, что путем разделения изображения модель CTC может решить эту проблему без снижения производительности. Обучение на изображениях с фиксированной максимальной шириной влияет на производительность моделей, использующих декодер Transformer для распознавания более длинных изображений. Эту проблему можно облегчить, хотя и не устранить полностью, изменив размеры изображений до ширины обучения.

использованная литература

[1] Graves A, Fernández S, Gomez F, et al. Connectionist temporalclassification: labelling unsegmented sequence data with recurrent neuralnetworks. Proceedings of the 23rd international conference on Machine learning.2006: 369-376.

[2] Bleeker M, de Rijke M. Bidirectional scene text recognitionwith a single decoder. arXiv preprint arXiv:1912.03656, 2019.

[3] Hochreiter S, Schmidhuber J. Long short-term memory. Neuralcomputation, 1997, 9(8): 1735-1780.

[4] Vaswani A, ShazeerN, Parmar N, et al. Attention is all you need. Advances in neural informationprocessing systems. 2017: 5998-6008.

[5] Wang J, Hu X.Gated recurrent convolution neural network for ocr. Proceedings of the 31stInternational Conference on Neural Information Processing Systems. 2017:334-343.

[6] Sandler M,Baccash J, Zhmoginov A, et al. Non-discriminative data or weak model? on therelative importance of data and model resolution. Proceedings of the IEEE/CVFInternational Conference on Computer Vision Workshops. 2019: 0-0.

[7] Sandler M, HowardA, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks.Proceedings of the IEEE conference on computer vision and pattern recognition.2018: 4510-4520.

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~