Резюме: В этом решении распознавание таблиц разделено на четыре части: распознавание последовательности структуры таблицы, обнаружение текста, распознавание текста, выравнивание ячеек и текстовых полей. Среди них модель, используемая для распознавания последовательности структуры таблицы, модифицирована на основе Master, модель обнаружения текста использует PSENet, а распознавание текста использует Master модель.
Эта статья опубликована в сообществе HUAWEI CLOUD.«Интерпретация диссертации 28: Модель распознавания таблиц TableMaster», Автор: cver.
1 Обзор
При распознавании таблиц модель обычно сначала регрессирует координаты ячеек, а затем получает информацию о строках и столбцах таблицы в соответствии с координатами ячеек. Для сцен со строками таблицы модель может более точно получать координаты ячеек, а затем использовать координаты ячеек для постобработки для получения информации о строках и столбцах. В случае отсутствия строки таблицы обычно трудно напрямую получить информацию о положении ячейки или строке таблицы В этом случае обычно необходимо получить пространственное расположение текстового блока с помощью обучения модели. Например, в графовой модели общий процесс распознавания заключается в том, чтобы сначала получить координаты и текстовое содержимое текстового поля с помощью модели OCR, а затем объединить мультимодальную информацию, такую как зрение, положение и семантика, и использовать графовую сеть. чтобы предсказать атрибуты строк и столбцов текстовых узлов, а затем восстановить структуру таблицы.
В TableMaster, последней модели распознавания таблиц, выпущенной Ping An Technology, предлагается другое решение, то есть положение текстового блока и структура таблицы в ячейке могут быть получены путем обучения одновременно. Это включает другую форму выражения для таблиц, которая часто используется на веб-страницах, то есть использование языка гипертекстовой разметки для определения таблиц (см. рис. 1).
Рис. 1. Гипертекстовые теги для таблиц и соответствующих таблиц
В соответствии с грамматическими правилами языка гипертекстовой разметки таблицы определяются
Каждая таблица имеет несколько строк (определяемых тегами), и каждая строка разделена на несколько ячеек (одна для пустых ячеек и одна для непустых ячеек).тег имеет
, , и т. д. представляют собой маркеры начала таблицы и строки, а также маркеры пустых ячеек. Эти маркеры не имеют соответствующих литеральных координат блока. Следовательно, длина последовательности маркера больше, чем фактическая последовательность ячеек. Чтобы сделать последовательность ячеек такой же длинной, как и последовательность маркеров, позиции, соответствующие маркерам , , , в последовательности ячеек, заполняются нулями. Координаты этих позиций не используются для обновления параметра при возврате к координатам ячейки и будут отфильтрованы Маской.На следующем рисунке показана последовательность структуры таблицы и координаты ячеек, распознаваемые TableMaster:
Рисунок 6. Результаты, предсказанные TableMaster. (а) исходное изображение; (б) спрогнозированное текстовое поле; (в) спрогнозированная последовательность структуры таблицы
2.2.3 Позиционирование и распознавание текстового поля
Модель обнаружения текста, используемая на этапе обнаружения и распознавания текста, является классической PSENet [3]. Модель, используемая для распознавания текста, — упомянутая выше модель Master. Используя комбинацию моделей PSENet+Master, сквозная точность распознавания текста может достигать 0,9885.
2.2.4 Восстановить полный html
Последовательность структуры таблицы, выводимая сетью TableMaster, не является окончательной последовательностью html. Чтобы получить окончательную html-последовательность таблицы, необходимо заполнить соответствующий текстовый контент в теге структуры таблицы.Процесс выглядит следующим образом:
Рисунок 7. От результата распознавания до финальной html-последовательности. (а) блок-схема, (б) окончательная последовательность HTML, (в) визуализация последовательности HTML
Одним из важных шагов является сопоставление ячеек: по координатам ячеек и координатам текстового поля совместите координаты текстового поля с координатами ячейки, а затем заполните идентификационное содержимое соответствующего текста поле в последовательность маркеров соответствующей ячейки, чтобы получить окончательный текст HTML. Выравнивание текстового поля в основном основано на трех правилах: 1. Правило центральной точки.Если центральная точка текстового поля находится в поле ячейки, заполните соответствующее текстовое содержимое текстового поля в соответствующем текстовом поле.
Средний; 2. Правило долговой расписки, если первая точка не выполняется, вычислить и поле ячейки с самой большой долговой распиской в текстовом поле как совпадение; 3. Принцип расстояния, если два вышеуказанных пункта не выполняются, вычислить все ячейки расстояние от текстового поля, выберите поле ячейки с наименьшим расстоянием в качестве соответствующего элемента.Восстановление структуры таблицы с помощью модели сериализации — эффективный метод идентификации структуры таблицы, аналогичный RARE Baidu. В отличие от TableMaster, RARE заменяет Transformer в TableMaster на GRU. Кроме того, этот метод использует только визуальную информацию изображения, а последующую работу можно комбинировать с мультимодальными функциями для получения лучших результатов.
Цитаты из литературы
[1] Jiaquan Ye , Xianbiao Qi , Yelin He , Yihao Chen , DengyiGu , Peng Gao , and Rong Xiao. PingAn-VCGroup's Solution for ICDAR 2021Competition on Scientific Literature Parsing Task B: Table Recognition to HTML.arXiv:2105.01848, 2021.
[2] Ning Lu, Wenwen Yu, Xianbiao Qi, Yihao Chen, Ping Gong,Rong Xiao, and Xiang Bai. Master: Multi-aspect non-local network for scene textrecognition. Pattern Recognition, 2021.
[3] Вэньхай Ван, Энце Се, Сян Ли, Венбо Хоу, Тонг Лу, Ган Ю и Шуай Шао Надежное обнаружение текста с прогрессивной масштабируемой сетью В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, стр. 9336 – 9345, 2019.
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~
определение ярлыка). Как видно из рисунка 1, таблица представлена в виде последовательности текстовых символов, поэтому для предсказания структуры таблицы можно использовать сериализованную модель (seq2seq или преобразование).
2.TableMaster2.1 Процесс распознавания структуры таблицыTableMaster использует многозадачную модель обучения с двумя ветвями: одна для предсказания последовательности структуры таблицы, а другая для регрессии положения ячеек. После завершения распознавания TableMaster результат распознавания проходит через алгоритм сопоставления постобработки, который объединяет последовательность структуры таблицы и текстовое содержимое ячейки для получения окончательного HTML-кода таблицы (как показано на рисунке 2). Рис. 2. Процесс распознавания таблицы TableMaster 2.2 Принцип работы TableMaster2.2.1 Сетевая архитектураTableMaster модифицирован на основе модели Master[2]. Master — модель распознавания текста, разработанная Ping An.Его сетевая структура разделена на две части: кодирование и декодирование. Закодированная структура сети заимствует остаточную структуру соединения ResNet. В отличие от ResNet, за сетью кодирования Master следует модуль Multi-Aspect GCAttention после каждого остаточного блока соединения: где h - количество многоголовых внимания. Стадия кодирования является ключом ко всей Мастер-сети, которая преобразует изображение в последовательность, чтобы ее можно было декодировать с помощью Преобразователя. Размер входного изображения на этапе кодирования: 48*160*1, а выходной размер 6*40*512, где 512 — длина последовательности модели. Признаки последовательности, выведенные на этапе кодирования, затем подвергаются кодированию положения и вводятся на этапе декодирования. Часть декодирования состоит из трех обычных слоев декодирования преобразователя (как показано на рисунке 3). Рис. 3 Структура мастер-модели, источник изображения [2] Модель извлечения признаков TableMaster, то есть структура кодирования согласуется со структурой Master, а отличие от структуры Master заключается в части декодирования. Часть декодирования TableMaster добавляет ветвь к Мастеру: после прохождения уровня Transformer часть декодирования TableMaster делится на две ветви. После этого каждая ветвь подключается к двум слоям Transformer, соответствующим двум задачам обучения: регрессии текстовых полей ячеек и прогнозированию последовательностей структуры таблицы. Рис. 4. Сравнение структуры моделей TableMaster и Master, источник изображения [1] 2.2.2 Ввод и выводРазмер входного изображения на этапе извлечения признаков TableMaster составляет 480 * 480 * 3, а размер вывода - 7 * 7 * 500, а затем функция выходной последовательности изменяется до 49 * 500 и вводится для декодирования. сцена. где 500 — длина последовательности модели, а 49 — размерность функции последовательности в каждом месте. В таблице 38 меток категорий (как показано на рисунке 5), плюс начальные и конечные метки, общее количество меток категорий, используемых в модели, равно 41. Рисунок 5. 38 типов меток для таблиц в модели Tablemaster, источник изображения [1] двое из них |
|