Thesis Interpretation 丨 Модель распознавания таблиц TableMaster

искусственный интеллект

Резюме: В этом решении распознавание таблиц разделено на четыре части: распознавание последовательности структуры таблицы, обнаружение текста, распознавание текста, выравнивание ячеек и текстовых полей. Среди них модель, используемая для распознавания последовательности структуры таблицы, модифицирована на основе Master, модель обнаружения текста использует PSENet, а распознавание текста использует Master модель.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Интерпретация диссертации 28: Модель распознавания таблиц TableMaster», Автор: cver.

1 Обзор

При распознавании таблиц модель обычно сначала регрессирует координаты ячеек, а затем получает информацию о строках и столбцах таблицы в соответствии с координатами ячеек. Для сцен со строками таблицы модель может более точно получать координаты ячеек, а затем использовать координаты ячеек для постобработки для получения информации о строках и столбцах. В случае отсутствия строки таблицы обычно трудно напрямую получить информацию о положении ячейки или строке таблицы В этом случае обычно необходимо получить пространственное расположение текстового блока с помощью обучения модели. Например, в графовой модели общий процесс распознавания заключается в том, чтобы сначала получить координаты и текстовое содержимое текстового поля с помощью модели OCR, а затем объединить мультимодальную информацию, такую ​​как зрение, положение и семантика, и использовать графовую сеть. чтобы предсказать атрибуты строк и столбцов текстовых узлов, а затем восстановить структуру таблицы.

В TableMaster, последней модели распознавания таблиц, выпущенной Ping An Technology, предлагается другое решение, то есть положение текстового блока и структура таблицы в ячейке могут быть получены путем обучения одновременно. Это включает другую форму выражения для таблиц, которая часто используется на веб-страницах, то есть использование языка гипертекстовой разметки для определения таблиц (см. рис. 1).

图1 表格的超文本标记符和对应的表格

Рис. 1. Гипертекстовые теги для таблиц и соответствующих таблиц

В соответствии с грамматическими правилами языка гипертекстовой разметки таблицы определяются

Каждая таблица имеет несколько строк (определяемых тегами), и каждая строка разделена на несколько ячеек (одна для пустых ячеек и одна для непустых ячеек).

тег имеет

, , и т. д. представляют собой маркеры начала таблицы и строки, а также маркеры пустых ячеек. Эти маркеры не имеют соответствующих литеральных координат блока. Следовательно, длина последовательности маркера больше, чем фактическая последовательность ячеек. Чтобы сделать последовательность ячеек такой же длинной, как и последовательность маркеров, позиции, соответствующие маркерам , , , в последовательности ячеек, заполняются нулями. Координаты этих позиций не используются для обновления параметра при возврате к координатам ячейки и будут отфильтрованы Маской.

На следующем рисунке показана последовательность структуры таблицы и координаты ячеек, распознаваемые TableMaster:

图6 TableMaster预测的结果。(a)原图;(b)预测的文字框;(c)预测的表格结构序列

Рисунок 6. Результаты, предсказанные TableMaster. (а) исходное изображение; (б) спрогнозированное текстовое поле; (в) спрогнозированная последовательность структуры таблицы

2.2.3 Позиционирование и распознавание текстового поля

Модель обнаружения текста, используемая на этапе обнаружения и распознавания текста, является классической PSENet [3]. Модель, используемая для распознавания текста, — упомянутая выше модель Master. Используя комбинацию моделей PSENet+Master, сквозная точность распознавания текста может достигать 0,9885.

2.2.4 Восстановить полный html

Последовательность структуры таблицы, выводимая сетью TableMaster, не является окончательной последовательностью html. Чтобы получить окончательную html-последовательность таблицы, необходимо заполнить соответствующий текстовый контент в теге структуры таблицы.Процесс выглядит следующим образом:

图7 由识别结果到最终的html序列。(a)流程图;(b)最终的html序列;(c)html序列可视化

Рисунок 7. От результата распознавания до финальной html-последовательности. (а) блок-схема, (б) окончательная последовательность HTML, (в) визуализация последовательности HTML

Одним из важных шагов является сопоставление ячеек: по координатам ячеек и координатам текстового поля совместите координаты текстового поля с координатами ячейки, а затем заполните идентификационное содержимое соответствующего текста поле в последовательность маркеров соответствующей ячейки, чтобы получить окончательный текст HTML. Выравнивание текстового поля в основном основано на трех правилах: 1. Правило центральной точки.Если центральная точка текстового поля находится в поле ячейки, заполните соответствующее текстовое содержимое текстового поля в соответствующем текстовом поле.

Средний; 2. Правило долговой расписки, если первая точка не выполняется, вычислить и поле ячейки с самой большой долговой распиской в ​​текстовом поле как совпадение; 3. Принцип расстояния, если два вышеуказанных пункта не выполняются, вычислить все ячейки расстояние от текстового поля, выберите поле ячейки с наименьшим расстоянием в качестве соответствующего элемента.

Восстановление структуры таблицы с помощью модели сериализации — эффективный метод идентификации структуры таблицы, аналогичный RARE Baidu. В отличие от TableMaster, RARE заменяет Transformer в TableMaster на GRU. Кроме того, этот метод использует только визуальную информацию изображения, а последующую работу можно комбинировать с мультимодальными функциями для получения лучших результатов.

Цитаты из литературы

[1] Jiaquan Ye , Xianbiao Qi , Yelin He , Yihao Chen , DengyiGu , Peng Gao , and Rong Xiao. PingAn-VCGroup's Solution for ICDAR 2021Competition on Scientific Literature Parsing Task B: Table Recognition to HTML.arXiv:2105.01848, 2021.

[2] Ning Lu, Wenwen Yu, Xianbiao Qi, Yihao Chen, Ping Gong,Rong Xiao, and Xiang Bai. Master: Multi-aspect non-local network for scene textrecognition. Pattern Recognition, 2021.

[3] Вэньхай Ван, Энце Се, Сян Ли, Венбо Хоу, Тонг Лу, Ган Ю и Шуай Шао Надежное обнаружение текста с прогрессивной масштабируемой сетью В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, стр. 9336 – 9345, 2019.

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~

определение ярлыка). Как видно из рисунка 1, таблица представлена ​​в виде последовательности текстовых символов, поэтому для предсказания структуры таблицы можно использовать сериализованную модель (seq2seq или преобразование).

2.TableMaster

2.1 Процесс распознавания структуры таблицы

TableMaster использует многозадачную модель обучения с двумя ветвями: одна для предсказания последовательности структуры таблицы, а другая для регрессии положения ячеек. После завершения распознавания TableMaster результат распознавания проходит через алгоритм сопоставления постобработки, который объединяет последовательность структуры таблицы и текстовое содержимое ячейки для получения окончательного HTML-кода таблицы (как показано на рисунке 2).

图2 TableMaster表格识别流程

Рис. 2. Процесс распознавания таблицы TableMaster

2.2 Принцип работы TableMaster

2.2.1 Сетевая архитектура

TableMaster модифицирован на основе модели Master[2]. Master — модель распознавания текста, разработанная Ping An.Его сетевая структура разделена на две части: кодирование и декодирование. Закодированная структура сети заимствует остаточную структуру соединения ResNet. В отличие от ResNet, за сетью кодирования Master следует модуль Multi-Aspect GCAttention после каждого остаточного блока соединения:

где h - количество многоголовых внимания.

Стадия кодирования является ключом ко всей Мастер-сети, которая преобразует изображение в последовательность, чтобы ее можно было декодировать с помощью Преобразователя. Размер входного изображения на этапе кодирования: 48*160*1, а выходной размер 6*40*512, где 512 — длина последовательности модели. Признаки последовательности, выведенные на этапе кодирования, затем подвергаются кодированию положения и вводятся на этапе декодирования. Часть декодирования состоит из трех обычных слоев декодирования преобразователя (как показано на рисунке 3).

图3 Master模型结构,图片来源[2]

Рис. 3 Структура мастер-модели, источник изображения [2]

Модель извлечения признаков TableMaster, то есть структура кодирования согласуется со структурой Master, а отличие от структуры Master заключается в части декодирования. Часть декодирования TableMaster добавляет ветвь к Мастеру: после прохождения уровня Transformer часть декодирования TableMaster делится на две ветви. После этого каждая ветвь подключается к двум слоям Transformer, соответствующим двум задачам обучения: регрессии текстовых полей ячеек и прогнозированию последовательностей структуры таблицы.

图4 TableMaster和Master模型结构对比,图片来源[1]

Рис. 4. Сравнение структуры моделей TableMaster и Master, источник изображения [1]

2.2.2 Ввод и вывод

Размер входного изображения на этапе извлечения признаков TableMaster составляет 480 * 480 * 3, а размер вывода - 7 * 7 * 500, а затем функция выходной последовательности изменяется до 49 * 500 и вводится для декодирования. сцена. где 500 — длина последовательности модели, а 49 — размерность функции последовательности в каждом месте. В таблице 38 меток категорий (как показано на рисунке 5), плюс начальные и конечные метки, общее количество меток категорий, используемых в модели, равно 41.

图5 Tablemaster模型中表格的38类标签,图片来源[1]

Рисунок 5. 38 типов меток для таблиц в модели Tablemaster, источник изображения [1]

двое из них