Аннотация: В этой статье рассматриваются два декодера (CTC[1] и Transformer[2]) и три модуля кодировщика (двунаправленный LSTM[3], Self-Attention[4] и GRCL[5]) с помощью большого количества Эксперименты сравнивают точность и производительность широко используемых сценариев и общедоступных наборов данных рукописного текста.
Эта статья опубликована в сообществе HUAWEI CLOUD.«Интерпретация диссертации 27: переосмысление модели распознавания строк текста», Автор: wooheng.
1. Введение
В данной статье исследуется проблема распознавания строк текста. В отличие от большинства методов, ориентированных на определенные домены (например, текст сцены или рукописные документы), в этой статье исследуется общая проблема общей архитектуры, которая может извлекать текст из любого изображения независимо от формы ввода данных. В этой статье исследуются два декодера (CTC[1] и Transformer[2]) и три модуля кодировщика (двунаправленный LSTM[3], Self-Attention[4] и GRCL[5]), которые широко используются в обширных экспериментах. Производительность сравнивается на общедоступных наборах данных сцен и рукописного текста. В этой статье показано, что комбинация, которой до сих пор уделялось мало внимания в литературе, а именно комбинация кодировщика с самостоятельным вниманием и декодера CTC плюс структура языковой модели, показывает высокую точность и вычислительную сложность при обучении на общедоступных и внутренних data превосходит все другие комбинации. В отличие от более распространенных моделей на основе Transformer, эта архитектура может обрабатывать входные данные произвольной длины.
Рис. 1. Пример изображения текстовых строк в наборе данных, содержащем изображения почерка, текста сцены и текста документа различной длины.
2. Структура модели
Большинство современных алгоритмов распознавания строк текста состоят из трех основных компонентов: сверточной основы для извлечения визуальных признаков, последовательного кодировщика для агрегирования признаков из частей или всей последовательности и, наконец, декодера, основанного на выводе кодировщика. окончательная транскрипция. В работе исследуются различные комбинации кодеров и декодеров с фиксированными магистралями и предлагается оптимальная архитектура модели, структура которой показана на рис.
Рисунок 2. Структура модели. Входное изображение сегментируется на перекрывающиеся блоки с двунаправленным дополнением перед подачей в магистраль. Действительные части сгенерированных признаков последовательности объединяются перед подачей в декодер.
2.1 Магистральная сеть
Основой этой статьи является изометрическая архитектура [6], в которой в качестве строительного блока используется слой узкого места инверсии слияния, вариант слоя узкого места инверсии [7], который заменяет разделяемую структуру полной сверткой для повышения эффективности вывода модели. Изометрическая архитектура поддерживает постоянное внутреннее разрешение на всех уровнях, обеспечивает низкий объем памяти для активации и упрощает настройку модели для выделенного оборудования с максимальным использованием. Рисунок 3 детализирует сеть. Он состоит из пространственно-глубинного слоя с размером блока 4, за которым следуют 11 объединенных инверсионных узких мест с ядрами 3×3 и скоростью расширения 8×, с 64 выходными каналами. Последний полностью сверточный остаточный блок применяется для уменьшения высоты тензора до 1, который подается в сеть кодировщика в качестве входных данных.
Рис. 3. Магистраль, использованная в эксперименте. Сначала уменьшите разрешение входного изображения в градациях серого в 4 раза с помощью операции пространственно-глубинного преобразования, затем примените 11 объединенных инверсионных слоев узкого места с коэффициентами расширения 8 и 64 выходных каналов и используйте остаточные блоки свертки для проецирования выходных данных на высота в тензоре 1.
2.2 Энкодер
Кодировщики собственного внимания широко используются во многих задачах НЛП и зрения. Как задача преобразования изображения в последовательность, распознавание строк текста не является исключением. Кодировщики с автоматическим вниманием могут эффективно выводить функции, суммирующие всю последовательность, без использования повторных соединений. Выход магистральной сети подается на кодировщик. Закодированная функция Y рассчитывается как:
Где три параметра W из Q, K и V являются параметрами обучения размера d × d, которые проецируют входную последовательность X в запросы, ключи и значения соответственно. Закодированный признак Y представляет собой выпуклую комбинацию вычисленных значений V, а матрица сходства вычисляется скалярным произведением запросов и ключей.
В этой статье используются 4 независимые головки, каждая из которых использует механизм внимания с несколькими головками. Размер скрытого слоя установлен на 256. Чтобы предотвратить переобучение, отсев применяется после каждого подслоя, установленного на 0,1. Добавлено синусоидальное кодирование относительного положения, чтобы энкодер знал о положении. В наших экспериментах мы сравниваем точность и сложность различных вариантов модели, складывая k слоев кодировщика с числом {4, 8, 12, 16, 20}.
2.3 Декодер
После декодера CTC добавляется языковая модель, а языковая модель N-грамм на основе символов используется для обучения весов оптимизированных функций признаков с минимальной частотой ошибок.
2.4 Сегментация изображения
Из-за влияния скалярного произведения внимания на уровне собственного внимания сложность модели и объем памяти кодировщика растут квадратично в зависимости от ширины изображения. Это может привести к тому, что изображения будут слишком длинными, а набор текста будет проблематичным. Уменьшение длинных изображений позволяет избежать этих проблем, но неизбежно влияет на точность распознавания, особенно для узких или близко расположенных символов.
В этой статье предлагается простая, но эффективная стратегия разбиения на фрагменты, которая гарантирует, что модель хорошо работает с произвольными широкими входными изображениями без сжатия (см. рис. 2). В этой статье размер входного изображения изменяется до 40 пикселей в высоту с сохранением соотношения сторон. Затем строки текста разбиваются на перекрывающиеся блоки с двунаправленным отступом, чтобы уменьшить возможные эффекты границ (обратите внимание, что последний блок имеет дополнительный отступ, чтобы обеспечить однородную форму для пакетной обработки). Этот документ передает перекрывающиеся блоки в кодировщики магистрали и внутреннего внимания для создания последовательных функций для каждого блока. Наконец, объедините допустимые области обратно в полную последовательность, удалив области заполнения.
Этот подход разбивает длинные последовательности на k более коротких фрагментов, эффективно снижая сложность модели и использование памяти слоями внутреннего внимания в k раз. Эта стратегия используется как во время обучения, так и во время логического вывода, чтобы обеспечить согласованность поведения.
3. Экспериментальные результаты
На рисунке 4 показаны экспериментальные результаты, которые показывают, что декодер CTC в сочетании с кодировщиком Self-Attention плюс структура языковой модели превосходит все другие комбинации с точки зрения точности и вычислительной сложности при обучении на общедоступных и внутренних данных.
Рисунок 4. Результаты оценки выбранных структур модели на наборах данных рукописного ввода и наборах данных текста сцены. Столбец «Rect.» указывает, включает ли модель блок выпрямления. «S-Attn», «Attn» и «Tfmr Dec.» означают «Механизм самоконтроля», «Механизм внимания» и «Трансформаторный декодер» соответственно. «MJ», «ST» и «SA» представляют наборы данных MJSynth, SynthText и SynthAdd соответственно.
4. Вывод
В текстовой работе исследуется производительность репрезентативных архитектур кодировщика/декодера в качестве обычных распознавателей строк текста. При сравнении декодеров было обнаружено, что CTC в сочетании с языковыми моделями дает в целом превосходную производительность. В отсутствие LM конкурируют CTC и Transformer, CTC доминирует в одних случаях (GRCL), а Transformer доминирует в других (BiLSTM). С другой стороны, при сравнении кодировщиков SelfAttention всегда работает лучше, и оба декодера одинаково хорошо работают без LM. Интересно, что лучше всего работает неизученная модель SelfAttention/CTC+LM. В документе также показано, что декодеры, основанные на внимании, все еще могут извлечь выгоду из моделей внешнего языка. Исследование эффективности моделей внешнего языка с декодерами-трансформерами будет будущей работой.
В работе также рассматривается проблема, возникающая из-за наличия длинных изображений в распределении выборки. Необходимо учитывать как минимум два новых аспекта: эффективность и производительность. Из-за вторичного масштабирования длины изображения длинные изображения влияют на эффективность модели с использованием кодировщиков внутреннего внимания. В этой статье показано, что путем разделения изображения модель CTC может решить эту проблему без снижения производительности. Обучение на изображениях с фиксированной максимальной шириной влияет на производительность моделей, использующих декодер Transformer для распознавания более длинных изображений. Эту проблему можно облегчить, хотя и не устранить полностью, изменив размеры изображений до ширины обучения.
использованная литература
[1] Graves A, Fernández S, Gomez F, et al. Connectionist temporalclassification: labelling unsegmented sequence data with recurrent neuralnetworks. Proceedings of the 23rd international conference on Machine learning.2006: 369-376.
[2] Bleeker M, de Rijke M. Bidirectional scene text recognitionwith a single decoder. arXiv preprint arXiv:1912.03656, 2019.
[3] Hochreiter S, Schmidhuber J. Long short-term memory. Neuralcomputation, 1997, 9(8): 1735-1780.
[4] Vaswani A, ShazeerN, Parmar N, et al. Attention is all you need. Advances in neural informationprocessing systems. 2017: 5998-6008.
[5] Wang J, Hu X.Gated recurrent convolution neural network for ocr. Proceedings of the 31stInternational Conference on Neural Information Processing Systems. 2017:334-343.
[6] Sandler M,Baccash J, Zhmoginov A, et al. Non-discriminative data or weak model? on therelative importance of data and model resolution. Proceedings of the IEEE/CVFInternational Conference on Computer Vision Workshops. 2019: 0-0.
[7] Sandler M, HowardA, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks.Proceedings of the IEEE conference on computer vision and pattern recognition.2018: 4510-4520.
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~