Распознавание текста: 3 экспериментальных метода извлечения ключевой информации

искусственный интеллект

Аннотация: Автоматическое извлечение ключевой информации из изображений документов с помощью моделей глубокого обучения стало актуальной задачей, которая привлекла большое внимание научных кругов и промышленности.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Технический обзор десять: извлечение ключевой информации для распознавания текста», автор оригинала: little rookie chg.

Модели глубокого обучения достигли больших успехов в области OCR, включая задачи обнаружения и распознавания текста. Извлечение ключевой информации из документов (как показано на рис. 1) как последующая задача оптического распознавания текста имеет множество практических сценариев применения. Использование человеческого труда для извлечения информации из этих документов является повторяющимся и трудоемким. Автоматическое извлечение ключевой информации из изображений документов с помощью моделей глубокого обучения стало актуальной задачей, которая привлекла большое внимание академических кругов и промышленности. Ниже приводится краткое введение в несколько недавних связанных статей, которые разделены на три категории: на основе сетки, на основе графика и сквозные.

1. Технология извлечения ключевой информации изображения документа на основе сетки

Этот тип метода преобразует изображение в вектор растрового представления на основе пиксельных точек изображения и вводит его в сеть глубокого обучения, чтобы научиться извлекать ключевую информацию.

1.1 Зарядная сетка[1]  

В этой статье указывается, что на взаимосвязь между текстами в документе влияет не только порядок следования текста, но и отношение к расположению каждого текста в документе. Для решения вышеуказанных проблем автор предлагает метод chargrid, который сопоставляет изображение документа с двухмерным представлением сетки на уровне символов, как показано на рисунке 2. Горячее кодирование используется для каждой сетки символов, а векторное представление всего изображения имеет вид \tilde{g} \in\mathbb{R}^{H×W×N_{c}}g~​∈R_H_×_W_×_Nc_​, где H_H_ и W_W_ — длина и ширина изображения, а N_{c}_Nc_ — количество категорий символов.

Рис. 2. Документальное представление chargrid

Затем это векторное представление используется в качестве входных данных chargrid-net, а сетевая структура CNN на основе кодировщика-декодера (как показано на рисунке 3) выполняет обнаружение текстового поля и семантическую сегментацию ключевой информации. Вся сеть состоит из трех частей: потери сегментации, классификации кадров и регрессии координат кадров.Обучение оптимизации функции потерь: {\mathcal{L}}_{total}={\mathcal{L}}_{seg}+{\ mathcal{L}}_{boxmask}+{\mathcal{L}}_{boxcoord}L_total_​=L_seg_​+L_boxmask_​+L_boxcoord_​. Ключевое информационное содержание получается путем интеграции символов, категории сегментации которых принадлежат к одной и той же категории.

Рис. 3. Архитектура модели электростанции

1.2 МИЛАШКА[2] 

В этой статье также указывается, что информация о расположении между текстами в документе не может быть обработана с использованием только методов НЛП. Поэтому автор разработал метод CUTIE, как показано на рисунке 4, который сопоставляет изображение документа с векторным представлением сетки, сохраняющим пространственное позиционное отношение каждого текста, а затем разрабатывает два типа моделей CNN для ключевых информационных вопросов: CUTIE- A, с использованием высокоскоростной сети HRNet, в качестве магистральной сети используется CUTIE-B, сеть CNN с жесткой сверткой. Вся модель оптимизируется за счет потери перекрестной энтропии между предсказанным классом и истинным классом для каждого блока.

Рис. 4 Архитектура модели CUTIE

2. Технология извлечения ключевой информации изображения документа на основе графа

Метод, основанный на структуре графа, заключается в том, чтобы рассматривать изображение документа как структуру графа, состоящую из текстовых сегментов, и использовать модель нейронной сети для изучения взаимосвязи между текстовыми сегментами для извлечения ключевого информационного содержания документа.

2.1 GC-BiLSTM-CRF[3]

В этой статье указывается, что традиционный метод NER BiLSTM-CRF не может использовать информацию о макете между фрагментами текста в изображении документа. Для решения вышеуказанных проблем авторы предлагают использовать графовые сверточные нейронные сети для изучения семантической информации и информации о расположении текстовых фрагментов.

Рис. 5. Граф сверточной нейронной сети, обучающей графу, векторному представлению текстовых фрагментов.

В частности, рассматривайте текстовые фрагменты как точки, а отношения между текстами как ребра, чтобы построить полносвязную структуру графа. Сверточная нейронная сеть графа используется для изучения представления вектора графа для каждого фрагмента текста, как показано на рисунке 5.

Рис. 6. BiLSTM-CRF с введением графового векторного представления

После получения векторного представления графа текстового фрагмента он соединяется с вектором Word2Vec каждого текстового токена в текстовом фрагменте и вводится в сеть BiLSTM-CRF для извлечения ключевой информации изображения документа. Вся модель совместно оптимизируется и изучается задачей классификации фрагмента текста и задачей классификации последовательности IOB.

2.2 МакетLM[4]  

В этой статье отмечается, что предварительно обученные модели добились больших успехов в области НЛП, но отсутствие в них использования макета и информации о макете делает их непригодными для задач извлечения ключевой информации изображения документа. Для решения вышеуказанных проблем автор предлагает модель LayoutLM.

Рис. 7 Архитектура модели LayoutLM

Модель использует BERT (очень мощная модель предварительного обучения в области NLP) в качестве базовой сети.Чтобы использовать информацию о макете и макете, вводится двумерное представление вектора положения, то есть двухточечная маркировка каждого фрагмент текста (горизонтальные и вертикальные координаты левого верхнего угла и правого нижнего угла. Горизонтальные и вертикальные координаты) — это векторы, полученные индексными таблицами в горизонтальном и вертикальном направлениях соответственно. В то же время опционально можно добавить визуальное векторное представление срезов, чтобы дополнить дополнительную информацию. Поскольку BERT можно рассматривать как полносвязную графовую сеть, мы также классифицируем LayoutLM как метод, основанный на структуре графа. Впоследствии модели предварительного обучения, подобные LayoutLM, такие как Lambert [5], достигли структуры SOTA в задаче извлечения ключевой информации из изображений документов, доказав мощные возможности моделей глубокого обучения, основанных на больших корпусах и больших моделях.

3. Сквозная технология извлечения ключевой информации об изображении документа  

Сквозной метод, как следует из названия, напрямую использует исходное изображение в качестве входных данных для получения ключевого информационного содержания документа.

3.1 съеден[6] 

В этой статье указывается, что методы извлечения информации, основанные на процессах обнаружения и распознавания, подвержены таким эффектам, как небольшие сдвиги позиции. Для решения вышеуказанных проблем автор предлагает метод EATEN, который напрямую извлекает ключевое информационное содержание документа из входного исходного изображения.

Рис. 8 Архитектура модели EATEN

В частности, как показано в сетевой структуре на рисунке 8, EATAN использует магистральную сеть CNN для извлечения высокоуровневой визуальной информации об изображении документа, затем использует сеть внимания с учетом категорий объектов для изучения информации о расположении объекта и, наконец, использует декодер на основе LSTM.Декодирование получает предварительно заданный контент объекта. Поскольку модель напрямую получает ключевую информацию о документе из изображения, ее легко ускорить оптимизацию и упростить развертывание на периферии.

3.2 ТРИЕ[7] 

В этой статье указывается, что существующие методы извлекают ключевую информацию как несколько независимых задач, а именно обнаружение текста, распознавание текста и извлечение информации, которые нельзя контролировать и изучать друг от друга, поэтому автор предлагает сквозной метод. сетевая модель TRIE выполняет обучение модели для трех вышеуказанных задач одновременно.

Рис. 9 Архитектура модели TRIE

В частности, используйте ResNet + FPN в качестве магистральной сети для обнаружения текста, затем используйте результаты сети обнаружения + ROIAlign для выполнения распознавания текста внимания + кодировщик-декодер и, наконец, объедините информацию о положении текста, визуальную информацию и семантическую информацию. Выполните классификацию тегов IOB для получения ключевой информации документа. Вся модель TRIE совместно оптимизирована для трех задач (т. е. обнаружения текста, распознавания текста и извлечения информации): mathcal{L}}_{recog} +{\lambda}_{info}{\mathcal{L}}_{info}L=L_det_​+_λrecog_​L_recog_​+_λinfo_​L_info_​.

резюме:

В этом документе кратко представлена ​​ключевая технология извлечения информации из изображений документов в области оптического распознавания текста, последние технологии разделены на три категории в соответствии с моделью: на основе сетки, на основе графика и сквозные, а также показаны две статьи для каждой из них. категория объяснить . В целом, предварительно обученные графовые модели, основанные на больших корпусах, демонстрируют большую силу, а сквозные модели также обладают значительным потенциалом.

использованная литература:

[1] Катти, Ануп Р. и др. «Chargrid: на пути к пониманию 2D-документов», EMNLP, 2018.

[2] Чжао, Сяохуэй и др. «Милашка: учимся понимать документы с помощью сверточного универсального экстрактора текстовой информации», arXiv, 2019

[3] Лю, Сяоцзин и др. «Свертка графа для мультимодального извлечения информации из визуально насыщенных документов», NAACL, 2019.

[4] Сюй, Йихэн и др. «Макет: предварительная подготовка текста и макета для понимания изображения документа», KDD, 2020.

[5] Гарнкарек, Лукаш и др. «LAMBERT: Моделирование языка с учетом макета с использованием BERT для извлечения информации», arXiv, 2020.

[6] Гуо, Хэ и др. «Eaten: внимание с учетом сущностей для однократного извлечения визуального текста», ICDAR, 2019.

[7] Чжан, Пэн и др. «TRIE: сквозное чтение текста и извлечение информации для понимания документов», ACM MM, 2020.

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~