Интерпретация статьи 丨LayoutLM: предварительная подготовка текста и макета для понимания документа

Резюме: модель LayoutLM использует крупномасштабный немаркированный набор данных документа для совместного предварительного обучения текста и макета и добилась лучших результатов в нескольких последующих задачах понимания документа.

Эта статья опубликована в сообществе HUAWEI CLOUD."Paper Interpretation Series 25: LayoutLM: Предварительное обучение тексту и макету для понимания документов", Автор: Сун Сюань.

1. Введение

Понимание документов или разведка документов имеет широкий спектр применения в современном обществе. Деловые документы, показанные на рис. 1, записаны с богатой и конкретной информацией, а также представляют собой сложные и изменчивые структуры макета, поэтому правильное понимание этих документов является очень сложной задачей. До этого документа понимание документов на основе моделей имело следующие два недостатка: (1) для определенных сценариев сквозное контролируемое обучение выполняется с вручную размеченными данными, крупномасштабные неразмеченные данные не используются, а модель сложна. обобщить на другой макет или сцену; (2) Извлечение признаков с использованием предварительно обученных моделей в области CV или NLP, без учета совместного обучения текста и информации о макете.

图1. 不同版面与格式的商业文档扫描图像

Рисунок 1. Отсканированные изображения деловых документов в различных макетах и форматах

Ввиду вышеуказанных недостатков исследователи из Азиатского исследовательского института Microsoft предложили модель LayoutLM, как показано на рисунке 2 [1], которая использует крупномасштабные наборы данных неразмеченных документов для совместной предварительной подготовки текста и макета и понимает несколько последующих документов. По заданию были достигнуты лидирующие результаты. В частности, модель LayoutLM во многом заимствована из модели BERT [2].На входном уровне модели, LayoutLM добавляет две новые функции, основанные на функциях текста и положения, принятых BERT: (1) функции 2-D положения, то есть функции макета документа; (2) глобальные функции изображения документа и функции на уровне слов с использованием функций Faster ROI. R-CNN [3].на уровне цели обучения, используя потерю маскированной визуально-языковой модели (MVLM) и потерю классификации документов с несколькими метками (MDC) для многозадачного обучения.На уровне обучающих данных, LayoutLM предварительно обучен примерно на 11 миллионах отсканированных изображений документов из набора данных IIT-CDIP Test Collection 1.0 [4], который содержит широкий спектр писем, записок, электронных писем, форм, счетов и т. д. типов документов. Текстовое содержимое и информация о местоположении изображений документов получаются с помощью механизма Tesseract [5] с открытым исходным кодом.

图2. LayoutLM模型结构示意图

Рисунок 2. Схематическая диаграмма структуры модели LayoutLM

2. LayoutLM

2.1 Структура модели

Основываясь на структуре модели BERT, LayoutLM добавляет две новые входные функции: функции двумерного положения и функции изображения.

2-мерные позиционные признаки. Целью 2-мерных позиционных признаков является кодирование относительных пространственных позиционных отношений в документе. Документ можно рассматривать как систему координат, и его левый верхний угол является началом координат (0,0)(0,0). Для слова его ограничивающая рамка может быть представлена координатами (x_0,y_0,x_1,y_1)(_x_0,_y_0,_x_1,_y_1), где (x_0,y_0)(_x_0,_y_0) представляет собой верхние левые угловые координаты, (x_1,y_1)(х_1,y_1) представляет координату нижнего правого угла. x_0_x_0разделяет параметр встраиваемого слоя X_X с x_1_x_1, y_0_y_0 и y_1_y_1 имеют общий параметр слоя внедрения Y_Y. В частности, ограничивающая рамка всего изображения документа равна (0,0,W,H)(0,0,W,H), W_W_ и H_H_ представляют ширину и высоту изображения документа соответственно.

Особенности изображения: в соответствии с ограничительной рамкой слова LayoutLM использует операцию ROI для создания функций области изображения из выходной карты функций FasterR-CNN, которые соответствуют словам один к одному. Для специального тега [CLS] (выходной соединительный слой тега [CLS], который используется для задач классификации документов, подробности см. в модели BERT) в качестве признака изображения используется средний признак всего изображения. тег. Следует отметить, что LayoutLM не использует функции изображения на этапе предварительного обучения; функции изображения могут быть выборочно добавлены только на этапе последующей задачи, а веса модели Faster R-CNN, которые генерируют функции изображения, поступают из предварительно обученной модели. и не настраиваются.

2.2 Предварительное обучение LayoutLM

Предварительное задание № 1: Маскированная модель визуального языка MVLM. На этапе предварительной подготовки текстовая информация о некоторых словах маскируется случайным образом, но информация о их положении все еще сохраняется, а затем модель обучается предсказывать замаскированные слова в соответствии с контекстом. С помощью этой задачи модель может научиться понимать контекст и использовать двухмерную информацию о местоположении, чтобы связать две модальности зрения и языка.

Предтренировочная задача № 2: Классификация документов с несколькими метками MDC. Многие задачи понимания документов требуют представлений на уровне документа. Поскольку каждое изображение документа в данных IIT-CDIP содержит несколько меток, LayoutLM использует эти метки для контролируемых задач классификации документов, чтобы тег [CLS] выдавал более эффективные представления на уровне документа. Однако для наборов данных большего масштаба эти метки не всегда доступны, поэтому эта задача необязательна и фактически отбрасывается в последующих версиях LayoutLMv2.

2.3 Тонкая настройка модели LayoutLM

В этой статье предварительно обученная модель LayoutLM точно настроена для трех задач понимания документов, включая понимание таблиц, понимание счетов и классификацию документов, с использованием наборов данных FUNSD, SROIE и RVL-CDIP соответственно. Для задач понимания таблиц и билетов модель делает прогнозы меток последовательности {B, I, E, S, O} для каждого входного местоположения, тем самым обнаруживая сущности для каждого класса. Для задач классификации документов модель использует выходные функции с метками [CLS] для предсказания класса.

3. Эксперименты

Модель LayoutLM имеет ту же сетевую структуру Transformer [6], что и модель BERT, поэтому для инициализации используются веса модели BERT. В частности, БАЗОВАЯ модель представляет собой 12-слойный преобразователь, каждый слой содержит 768 скрытых единиц и 12 головок внимания, всего 113 млн параметров; БОЛЬШАЯ модель представляет собой 24-слойный преобразователь, каждый слой содержит 1024 скрытых единицы и 16 вниманий. Силовая головка имеет в общей сложности 343M параметров. Конкретные подробности обучения и настройки параметров см. в документе.

понимание таблицы. В таблицах 1 и 2 показаны экспериментальные результаты LayoutLM на наборе данных FUNSD для понимания таблиц, включая различные настройки, такие как разные модели, разные объемы обучающих данных, разную продолжительность обучения и разные задачи перед обучением. Прежде всего видно, что модель LayoutLM с введением визуальной информации добилась значительного повышения точности. Во-вторых, большее количество обучающих данных, более длительное время обучения и более крупные модели могут эффективно повысить точность моделей. Наконец, задача предобучения MDC имеет противоположный эффект при объеме данных 1M и 11M, а эффект только MVLM лучше в случае большого объема данных.

Кроме того, автор оригинальной статьи также сравнил влияние различных методов инициализации модели LayoutLM на последующие задачи, как показано в таблице 3. Можно видеть, что использование параметров модели RoBERTa (надежно оптимизированный BERT) для инициализации может в определенной степени повысить точность модели LayoutLM для последующих задач по сравнению с использованием исходных параметров модели BERT для инициализации.

表1. FUNSD数据集上的准确率

Таблица 1. Точность набора данных FUNSD

表2. 不同训练数据量与训练时长的LayoutLM BASE模型（Text + Layout, MVLM）在FUNSD数据集上的准确率

Таблица 2. Точность модели LayoutLM BASE (Text + Layout, MVLM) на наборе данных FUNSD с разным количеством обучающих данных и продолжительностью обучения

表3. 不同初始化方式的LayoutLM模型（Text + Layout, MVLM）在FUNSD数据集上的准确率

Таблица 3. Точность моделей LayoutLM (Text + Layout, MVLM) с различными методами инициализации на наборе данных FUNSD

понимание Билла. В таблице 4 показаны экспериментальные результаты LayoutLM на наборе данных SROIE для анализа билетов. Видно, что результаты модели LayoutLM LARGE лучше, чем результаты первого места в конкурсном списке СРОЕ на тот момент.

表4. SROIE数据集上的准确率

Таблица 4. Точность набора данных SROIE

Классификация изображений документов. В таблице 5 показаны экспериментальные результаты LayoutLM на наборе данных классификации изображений документов RVL-CDIP. Опять же, видно, что LayoutLM достигает лучших результатов.

表5. RVL-CDIP数据集上的分类准确率

Таблица 5. Точность классификации в наборе данных RVL-CDIP

4. Резюме

Модель LayoutLM, представленная в этой статье, использует крупномасштабный немаркированный набор данных документа для совместной предварительной подготовки текста и макета и достигает лучших результатов в нескольких последующих задачах понимания документа. Авторы статьи указали, что следующими направлениями исследований являются крупномасштабные наборы данных и модели, а также рассмотрение особенностей изображения на этапе предварительной подготовки.

[1] Xu Y, Li M, Cui L, et al. LayoutLM: Pre-training of text andlayout for document image understanding. Proceedings of the 26th ACM SIGKDDInternational Conference on Knowledge Discovery & Data Mining. 2020:1192-1200.

[2] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training ofdeep bidirectional transformers for language understanding. Proceedings ofNAACL-HLT. 2019: 4171-4186.

[3] Ren S, He K, Girshick R, et al. Faster R-CNN: Towardsreal-time object detection with region proposal networks. Advances in neuralinformation processing systems, 2015, 28: 91-99.

[4] Lewis D, Agam G, Argamon S, et al. Building a testcollection for complex document information processing. Proceedings of the 29thannual international ACM SIGIR conference on Research and development ininformation retrieval. 2006: 665-666.

[5] GitHub.com/t-gentle-act-oh…

[6] Vaswani A, Shazeer N, Parmar N, et al.Attention is all you need. Advances in neural information processing systems.2017: 5998-6008.

Если вы хотите узнать больше о технологии искусственного интеллекта, добро пожаловать в зону искусственного интеллекта HUAWEI CLOUD.В настоящее время существует программирование искусственного интеллекта Python и т. д.Шесть боевых лагерейБесплатное обучение для всех.

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~