Интерпретация документов 丨 Анализ структуры документа

искусственный интеллект

Аннотация: Решение для сквозного анализа структуры документа (DocParser), которое извлекает структуру документов (отсканированная версия, версия изображения и т. д.), включая распознавание объектов (здесь объекты относятся ко всем элементам, которые необходимо обнаружить, включая текст, строки, столбцы, ячейки и т. д. и т. д.) и классификация отношений.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Пятнадцатая серия интерпретаций тезисов: анализ структуры документа», оригинальный автор: смех очарование.

1. Аннотация статьи

Предлагается решение для сквозного анализа структуры документов (DocParser) для извлечения структуры документов (отсканированная версия, версия изображения и т. д.), включая распознавание сущностей (здесь сущности относятся ко всем элементам, которые необходимо обнаружить, включая текст , строки, столбцы, ячейки и т. д.) и классификация отношений. На основе TEX и synctex сгенерируйте слабо контролируемые теги путем обратной генерации кода TEX.

2. Решения

Учитывая набор документов D, цель состоит в том, чтобы создать иерархию T, где T включает сущности и отношения между сущностями. Для сущностей E относится к различным элементам в документе, таким как числа, таблицы, строки, ячейки и т. д. Каждая сущность включает 3 признака: 1. Семантическая категория, 2. Координаты прямоугольника, 3. Уверенность Оценка достоверности. Для отношений R задается тройкой (Esubj, Eobj, Ψ), классом отношений Ψ ∈ {родитель, за которым следует null}, где null представляет другие несвязанные объекты, такие как заголовки и нижние колонтитулы.

Комбинации объекта E и его отношения R достаточно, чтобы реконструировать иерархию документа T.

Сложности: похожий внешний вид сущностей, иерархическая вложенность и разнообразие разных документов.

2.1 ImageConversion

Преобразуйте изображение входного документа в изображение с разрешением ρ, это разрешение предопределено, а затем все изображения изменяются до фиксированного размера φ (при необходимости заполняются нулями); После предварительной обработки изображения каналы RGB всех изображений Нормализация выполняется аналогично набору данных MS COCO, чтобы использовать предварительно обученные веса этого набора данных при последующей инициализации модели.

2.2 EntityDetection

Используйте Mask R-CNN, чтобы построить модель, чтобы выполнить сегментацию изображения, чтобы идентифицировать все объекты в изображении документа. Эта модель принимает изображения, сгенерированные на предыдущем этапе, в качестве входных данных и выводит список сущностей E1,...,Em. Для каждого объекта Mask R-CNN определяет: 1) его квадратную ограничивающую рамку, 2) достоверность показателя достоверности, 3) маску бинарной сегментации (различение обнаруженного объекта и фонового пикселя в ограничивающей рамке), 4) метки категории объекта. , всего 23 категории, БЛОК СОДЕРЖИМОГО, ТАБЛИЦА, СТРОКА ТАБЛИЦЫ, СТОЛБЦ ТАБЛИЦЫ, ЯЧЕЙКА ТАБЛИЦЫ, ТАБЛИЦА, РИСУНОК, ЗАГОЛОВОК, РЕЗЮМЕ, УРАВНЕНИЕ, ПУНКТ, ПУНКТ, БИБЛИОГРАФИЧЕСКИЙ БЛОК, ЗАГОЛОВОК ТАБЛИЦЫ, ГРАФИЧЕСКАЯ РИСУНОК, ЗАГОЛОВОК РИСУНКА, ЗАГОЛОВОК, НИЖНИЙ НОМЕР, НОМЕР , ДАТА, КЛЮЧЕВЫЕ СЛОВА, АВТОР, ПРИСОЕДИНЕНИЕ.

2.3 Классификация отношений

В основном эвристический алгоритм.

2.3.1 вложение (родительский элемент) Здесь есть 4 шага:

  • h1: перекрытия, взаимосвязь перекрытия между кадрами обнаружения оценивается IOU;

  • h2: проверка грамматики, проверка грамматики;

  • h3: Прямые дочерние элементы, обрезать список кандидатов, оставить только прямые дочерние элементы, дочерние элементы будут удалены;

  • h4: Уникальные родители, обрезает список кандидатов так, чтобы у каждой сущности был только один родительский узел;

2.3.2 заказ (далее следует)

Сущности расположены в соответствии с их естественным порядком чтения (например, слева направо). По умолчанию все объекты будут проходить через эти две эвристики:

  • Объекты макета страницы в основном определяют, является ли страница макетом с одним столбцом или макетом с несколькими столбцами;

  • Поток чтения: реорганизуйте порядок узлов в соответствии с порядком чтения;

3. Экспериментальные результаты

Эффект анализа структуры таблицы ICDAR:

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~