которого его он которого ему он называет его. В прошлом при извлечении информации большинство работ было сосредоточено только на извлечении отношения сущностей текста, поэтому оно не подходит для прямого использования при понимании документа.
Эта статья опубликована в сообществе HUAWEI CLOUD.«Тринадцатая серия интерпретаций статей: влияние глобальной информации на анализ документов графовой сети», Автор: Очаруйте улыбкой.
1. Введение
Понимание документов сосредоточено на идентификации и извлечении информации о парах ключ-значение из неструктурированных документов и выводе ее в виде структурированных данных. В прошлом при извлечении информации большинство работ было сосредоточено только на извлечении отношения сущностей текста и не подходило для прямого использования при понимании документа.
На конкурсе ICDAR2019 участников попросили извлечь информацию о паре «ключ-значение» из таких документов, как квитанции об оплате счетов. Поэтому в этой статье предлагается структура графовой сети, которая содержит глобальную информацию и объединяет визуальную информацию для выполнения задачи извлечения ключевой информации из неструктурированных документов.
2. Структура сети
В этой статье задача понимания документа преобразуется в задачу классификации узлов графа. Для получения глобальной и локальной информации о тексте:
Возьмите категориальную информацию глобальной текстовой последовательности с помощью CLS, сгенерируйте w0 и поместите ее в тот же входной вектор, что и каждый отдельный текст (w1,w2…,wn). После модели BERT каждый элемент кодируется независимо, так что модель имеет локальную и глобальную информацию, а также может включать глобальный и локальный текст.
Для сбора глобальной и локальной информации изображений: используются аналогичные методы, но на основе сетей CNN для захвата глобальных и локальных характеристик изображения.
Сшивание элементов текста и изображения: объединение элементов изображения и текста.
Строительство сети:
Учитывая набор текстовых сегментов в документе, создайте виртуальный глобальный узел в качестве центра передачи информации, чтобы каждые два несмежных узла также были соседями по двум переходам, уменьшая потери при передаче информации, а глобальная информация также может быть выведена напрямую. на локальном узле.
Агрегация соседей обновляет параметры модели между каждым узлом и соседями с двумя переходами с помощью функции активации (leaky-relu) и использует K-внимание для улучшения возможностей модели (через механизм множественных вниманий и последующего слияния всех вниманий))
Извлечение информации:
3. Экспериментальные результаты
Данные и эффект конкурса Alibaba Tianchi.
Связанные эксперименты по абляции: после удаления визуальных признаков становится ясно, что визуальные признаки могут играть важную роль в извлечении структурированной информации из данных Tianchi и SROIE. Точно так же удаление глобальных узлов также снижает точность модели и проверяет важность глобальных связей в структуре графа.
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~