Перевод / Сяо Чжай
Резюме
Макет является фундаментальной частью любого графического дизайна. Создание большого количества разумных макетов документов может быть утомительной задачей с множеством ограничений, которые необходимо соблюдать, включая различные семантические элементы и глобальные ограничения на общий вид и интервалы. В этой статье мы предлагаем новую структуру, создающую READ, рекурсивный автоматический кодировщик документов для создания разумных 2D-макетов для больших и разнообразных документов.
Сначала мы проектируемисследовательский рекурсивный методИзвлеките структурную декомпозицию одного документа. использоватьДокументация по отмеченным аннотациям ограничительной рамкинабор данных, наша рекуррентная нейронная сеть учится отображать структурное представление, заданное в виде простой иерархии, в компактный код, пространство которого аппроксимируется распределением Гаусса.можно сэмплировать из этого местаНовая иерархия, приводящая к новому макету документа.
Кроме того, мы Комбинированная метрика введена для измерения структурного сходства между макетами документов. Мы используем его, чтобы показать, что наш метод способен создавать очень изменчивые и реалистичные результаты. макет. Далее мы демонстрируем полезность сгенерированных макетов в контексте стандартных задач обнаружения документов, показывая, что эффективность обнаружения повышается, когда обучающие данные дополняются сгенерированными документами макетов, сгенерированных READ.
1. Введение
Рис. 1. Дан набор обучающих примеров.СерединаРеальный макет документа с аннотациями (например, заполняемая форма слева) -используется правая сторонаНаш метод генерирует синтетические макеты, аналогичные тем, которые используются в обучающих данных.отмечены уникальным цветомОбласть семантической разметки.
«Не читайте так много, посмотрите вокруг себя и подумайте, что вы там видите» — Ричард Фейнман.
Макет необходим для эффективного общения и привлечения визуального внимания. Из газетных статей, журналов, академических рукописей, веб-сайтов и различных других форматов документов дизайн макета охватывает большое количество категорий документов реального мира и подлежит первоочередному рассмотрению редакторами. Однако, несмотря на растущий интерес исследовательского сообщества за последние несколько лет к созданию новых образцов для изображений [7, 19], аудио [18] и 3D-контента [10, 12, 28, 29], мало внимания уделялось крупномасштабный Разнообразие автоматической генерации, разумный макет документа. Синтезировать новые макеты, Сначала необходимо решить два фундаментальных вопроса: как правильно представить макет какого документа? Учитывая вышесказанное, как я могу синтезировать новый макет?
Первой работой, в которой явно рассматриваются эти проблемы, является недавний макет Ли и др. [11], который использует генеративно-состязательную сеть (GAN) [5] для управления генерацией макета. Они показывают впечатляющие результаты при синтезе правдоподобных макетов документов, содержащих до 9 элементов, представленных в документе в виде ограничительных рамок. Однако сильно структурированные документы различного типа могут иметь немалое количество элементов — до десятков и даже сотен. Кроме того, их обучающие данные составляют около 25 тысяч аннотированных документов, которые может быть трудно получить для различных типов документов. Таким образом, возникают два естественных вопроса: возможно ли разработать генеративный метод для синтеза высокоструктурированных макетов с большим количеством сущностей? Можно ли создавать синтетические макеты документов, не требуя больших объемов обучающих данных?
Рисунок 2. Обзор нашей инфраструктуры RvNN-VAE. Иерархия обучения строится для каждого документа в наборе данных. Эти иерархии отображаются в компактный код (рекурсивно в соответствии с сетью кодировщика, отмеченной красным) с пространством Приблизительно к распределению Гаусса. Из этого пространства можно выбирать новые иерархии (и на основе Сеть декодера отмечена синим цветом), получив новый макет документа.
В этой работе мы утвердительно отвечаем на два вопроса. Структурные иерархии естественны и соответствуют человеческому пониманию макета документа. Поэтому мы предлагаем READ: генеративно-рекуррентная нейронная сеть (RvNN), которая может соответствующим образом моделировать такие структурированные данные. Наш метод способен генерировать большое количество разумных макетов, содержащих плотные и сильно изменчивые группы сущностей, используя всего несколько сотен аннотированных документов. Используя наш метод, новые макеты документов могут быть сгенерированы за доли секунды из случайных векторов, извлеченных из гауссианов, в соответствии с конвейером, показанным на рисунке 2.
Учитывая набор данных аннотированных документов, где один документ состоит из набора помеченных ограничивающих рамок, мы сначала строим иерархии документов, основанные на связности и неявной симметрии их семантических элементов. Эти иерархии или деревья сопоставляются с компактным представлением кода рекурсивным способом снизу вверх. При обучении вариационного автоэнкодера (VAE) результирующие коды фиксированной длины, кодирующие деревья различной длины, ограничиваются примерно следованием распределению Гаусса. Новые макеты документов могут быть сгенерированы сетью рекурсивных декодеров, которая сопоставляет случайно выбранные коды из изученного распределения с полной иерархией документов.
Для оценки сгенерированных нами макетов мы вводим новую комбинированную метрику (DocSim) для измерения сходства макетов между структурированными многомерными объектами, главным примером которых являются документы. Мы используем предложенную метрику, чтобы показать, что наш метод способен генерировать макеты, представляющие базовое распределение документов, для которых он был обучен. Поскольку одним из основных мотивов изучения синтетических методов генерации данных является их полезность в качестве обучающих данных для глубоких нейронных сетей, мы также рассматриваем стандартную задачу анализа документов. Мы дополняем доступные обучающие данные синтетически сгенерированными документами, макет которых создается с помощью READ, и демонстрируем, что наше дополнение улучшает производительность сети при выполнении вышеуказанных задач анализа документов.
2. Связанная работа
Анализ структурных свойств и взаимосвязей между сущностями в документах является фундаментальной задачей в области поиска информации. В то время как локальные задачи, такие как оптическое распознавание символов (OCR), решались с очень высокой точностью, глобальный и сильно изменчивый характер макета документа делает их анализ более неуловимым.
Ранние работы по структурированному анализу документов в основном опирались на различные типы специально разработанных методов и эвристик (например, [2, 3, 8, 17]).Недавняя работа показала, что методы, основанные на глубоком обучении, значительно улучшают качество анализа; см., например, работа Янга и др. [31], в которой анализ компоновки рассматривается как задача сегментации пикселей с использованием совместных текстовых и визуальных представлений.
Такие современные методы, основанные на глубоком обучении, обычно требуют большого количества высококачественных обучающих данных, что требует подходящих методов для синтетического создания документов с реалистичным макетом [11] и содержанием [13]. Наша работа продолжается исследованием создания синтетического макета, показывающим, что наши синтетические данные могут с пользой дополнять обучающие данные для задач анализа документов.
Поддержание надежных представлений макетов оказалось полезным в различных контекстах графического дизайна, часто с использованием высокоструктурированных и насыщенных содержимым объектов. Наиболее связанной работой является наша недавняя работа LayoutGAN Ли и др. [11], целью которой является создание реалистичных макетов файлов с использованием слоев визуализации каркаса генеративно-состязательной сети (GAN). Чжэн и др. [32] также использовали инфраструктуру на основе GAN при создании документов, однако их работа в основном была сосредоточена на генерации с учетом содержимого, используя содержимое документа в качестве дополнительного априора.
В отличие от сверточных нейронных сетей (CNN), которые работают с векторами большой размерности и предполагают множественные многоканальные преобразования, в нашей работе мы используем рекуррентные нейронные сети, которые работают с векторами низкой размерности, и объединяют любые два вектора с помощью двухслойной перцептрон. Следовательно, они дешевле в вычислительном отношении и могут обучаться на нескольких обучающих выборках.
[4] выполнили поиск сходства макета с помощью автоэнкодера, чтобы упростить дизайн пользовательского интерфейса для мобильных приложений. [22] предложили инструмент исследования дизайна для веб-разметки и поиска на основе контента. [16] предложили интерактивную модель, основанную на использовании энергии, которая позволяет начинающим дизайнерам улучшать свои макеты страниц. Свернгин и др. [26] применили анализ макета, чтобы позволить дизайнерам манипулировать макетами, полученными из скриншотов. Говоря более фундаментально, Талтон и др. [27] используют визуальные структуры и текстовые паттерны, извлеченные из данных, для получения формальной грамматики, позволяющей вероятностно генерировать новые похожие сущности.
Рекуррентные нейронные сети (RvNN) были впервые представлены Сохером и др. [24, 25] для разбора естественных сцен и предложений на естественном языке. [23] подробно рассказали о применении RvNN для решения различных задач компьютерного зрения. Однако RvNN не привлекали такого внимания, как CNN, и до недавнего времени было показано, что соединение RvNN с генеративными моделями эффективно работает с ранее неисследованными парадигмами, такими как генеративные структуры 3D-форм [10, 33] и 3D-сцены в помещении [12]. ]. Макеты документов структурно аналогичны 3D-сценам внутри помещений в том смысле, что семантические объекты слабо связаны и не ограничены геометрическими связями, такими как части в 3D-фигурах.
Но в отличие от сцен в помещении, где любое допустимое расположение подсцен синтезирует правдоподобную глобальную сцену [14, 30], семантические объекты в документе должны быть размещены в правильных местах, чтобы результирующий макет выглядел реалистично; например, заголовок должен всегда появляются вверху. Другими словами, макет документа налагает более глобальные ограничения.
3. Модель обучения
Наша среда генеративного макета RvNN-VAE обучается на наборе данных документов с семантическими метками. То есть каждый документ состоит из набора помеченных ограничивающих рамок (например, журналы — статьи помечены заголовками, абзацами и т. д.). Мы используем набор помеченных ограничивающих рамок, которые мы называем атомарными единицами, для построения обучающей иерархии для каждого документа в нашем обучающем наборе. Эти иерархии включены в нашу структуру RvNN-VAE (см. рис. 2) с подходящими целями обучения. После обучения сеть RvNN-VAE генерирует новые макеты путем декодирования случайно выбранных векторов в иерархию двумерных ограничивающих прямоугольников с соответствующими семантическими метками.
3.1. Установление иерархии обучения
Рисунок 3. Исследовательский макет документов, извлеченных из обучающего набора IC-DAR2015 [1]. Введите документы и комментарии Коробки отображаются вверху. Обратите внимание, что когда два поля объединены, Объединенная ограничивающая рамка представляет собой объединение двух рамок.
Учитывая аннотации помеченных ограничивающих рамок, мы сначала извлекаем структурную декомпозицию для каждого документа в обучающем наборе на основе связности и неявной симметрии ограничивающих рамок атомарных ячеек, сканируя документ слева направо и сверху вниз. Результат сохраняется в виде бинарного дерева. Мы рекурсивно объединяем каждую пару атомарных элементов (которые мы рассматриваем как листовые узлы) в объединение блоков в соответствии с относительными позициями между блоками. Внутренние узлы также обрабатываются аналогичным образом. Этот процесс исследования продолжается до тех пор, пока все блоки не будут объединены в один корневой узел. Рисунок 3 демонстрирует результаты этого процесса исследования на одной обучающей выборке. Как показано, мы используем различные типы пространственных отношений (см. рис. 4).
Поскольку документы разрабатываются людьми, между родственными атомарными ячейками существуют слабо симметричные структуры; пространственно коррелированные поля часто имеют сходную геометрию ячеек. Обход слева направо и сверху вниз не всегда гарантирует, что атомарные единицы с похожей геометрией будут сгруппированы вместе, например, блок, помещенный под одинаковую геометрию блока, не может быть сгруппирован вместе. Однако мы демонстрируем, что наша структура RvNN-VAE способна эффективно фиксировать отношения между блоками с помощью нашей простой стратегии обхода без каких-либо сложных эвристик, созданных вручную.
3.2 Построение рекурсивной модели макета
Каждая атомарная единица в иерархии извлечения обучения изначально используется в размере своего граничного прямоугольника (существуетнормализованное по диапазону) представление объединяется с его семантической меткой, которая кодируется как однократный вектор. Чтобы эффективно смоделировать макет документа с помощью рекурсивных моделей, мы сначала используем простую однослойную нейронную сеть для сопоставления ограничивающих прямоугольников атомных ячеек сВекторное представление (мы эмпирически устанавливаем). Наша рекуррентная сеть автокодировщиков состоит из пространственных реляционных кодировщиков (SRE) и декодеров (SRD). Каждый кодер и декодер представляет собой многоуровневый персептрон (MLP), выражаемый как:
мы используемУказывает весИ отклонениеАгрегировать по всем слоям, на входезапускать на. Каждый MLP в нашей модели имеет скрытый слой, поэтому.
Наши SRE могут работать с (i) парой листьев или (ii) внутренними узлами и листьями. В любом случае, мы представляем оба представления узлов как. объединенный родительский кодоснован наи относительное положение между двумя ограничивающими рамками, используяВыражать. Относительное положение всегда рассчитываетсяЛевый дочерний узел (это внутренний узел, когда внутренние и конечные узлы объединены). первоеSRE выражается как:
(1)
Соответствующий SRD разделяет родительский код y обратно на его дочерний код.и, и их взаимное расположение(см. рис. 2, внизу справа). Он использует обратную карту и формулируется следующим образом:
(2)
Каждый узел в иерархической структуре представляет собой вектор признаков, который кодируется (или декодируется) из одного C SRES (или SRDS). В частности, мы заметили, что, поскольку сеть является рекурсивной, один и тот же кодировщик или декодер может использоваться несколько раз для разных узлов. Как более подробно описано ниже, тип кодера, используемого на каждом этапе, зависит от пространственного отношения между элементами на этом этапе.
Во время декодирования мы определяем тип пространственного отношения узла i, чтобы можно было использовать соответствующий декодер. С этой целью мы совместно обучаем классификатор вспомогательных узлов, чтобы определить, какой SRD применять на каждом этапе рекурсивного декодирования. Классификатор представляет собой нейронную сеть с одним скрытым слоем, который принимает в качестве входных данных код узла в иерархии и выводит, представляет ли этот узел лист или внутренний узел. В случае внутреннего узла вызывается соответствующий SRD, а если это лист, то с помощью нерекуррентной однослойной нейронной сети код проецируется обратно в помеченное представление ограничивающего прямоугольника (размерность прямоугольника, связанная с одним -горячий вектор, соответствующий семантической категории).
Рисунок 4. Различные типы пар пространственного кодера/декодера, используемые в Изучите макет документа. Левый дочерний элемент (или поле ссылки) Показывается толстым черным контуром. Рассчитать относительное положение Wrt Левый ребенок.
Типы пространственных отношений, которые мы рассматриваем для кодирования и декодирования макетов документов: правое, левое, нижнее, левое нижнее, правое нижнее, закрытое и широкое основание (c = 7), см. рисунок 4. Обратите внимание, что мы перемещаемся по документу слева направо и сверху вниз, поэтому нам не нужно учитывать какие-либо отношения в свободном пространстве. Для полного описания этих пространственных отношений, пожалуйста, обратитесь к дополнительному материалу.
3.3 Подробности обучения
Общие потери при обучении нашей сети RvNN-VAE составляют:
(3)
Первый из них - потеря реконструкции уровня листьев:
(4)
здесь,ина декодереКодировщики листовых векторов соответственно иэто количество листьев. Второй член — это потери при реконструкции относительного положения между ограничивающими прямоугольниками (листовыми или внутренними узлами и листовой рамкой):
(5)
гдеипредставляют векторы относительного положения на сторонах декодера и кодера соответственно. Третий член представляет собой стандартную категориальную кросс-энтропию.
потеря:
(6)
где σ — функция softmax, а a — вектор признаков Сопоставьте выход внутреннего (или корневого) узла с какой классификатор узлов применяется и i ∈ [0, c-1] соответствует узел.
Наконец, последний член в уравнении 3 представляет собой потерю KL-отклонения. Для аппроксимации пространства всех корневых кодов (вывод кодировщика RvNN-VAE):
(7)
гдепотенциальное пространство истандартное нормальное распределение.
Чтобы обучить нашу сеть RVNN-VAE, мы случайным образом инициализируем вес из распределения Гаусса. Вывод более сбалансированного макета документа в пространстве, Мы разработали некоторые (необязательные) этапы постобработки, как описано в дополнительных материалах.
4. Оцените модель
Чтобы оценить эффективность нашего метода с точки зрения внешнего вида и изменчивости, мы предлагаем новую комбинацию Меру подобия макета мы называем DocSim. Вдохновленный тем, как Метрика BLEU для машинного перевода (пост-двуязычное оценочное исследование) [20] измеряет сходство предложений, наша цель — получить простое и легко вычисляемое структурное сходство. Метрика между документами; сходство похоже на человеческое восприятие, но не слишком завышенное. 2, мы вводим нашу метрику со следующей интерпретацией BLEU: Рассмотрим двудольный граф между всеми словами W в первом предложении, все словаво втором предложении приговор,виМежду ними есть грань, если Оба представляют собой одно и то же слово (точнее, синонимы). Затем рассчитайте балл BLEU, подсчитав числа Ребро с наибольшим соответствием между этими двумя предложениями. Наша метрика, DocSim, аналогичным образом сравнивает два заданных макет документа,А именно: для любой пары ограничивающих рамоки, мы назначаем взвешенное ребро Это указываетикак похожи по форме, «Роль» в локации и документе. Окончательная оценка Затем рассчитывается как максимальный общий вес (взвешенный) макетиматч между.
Формально пусть мы получили два документа D1 и D2, каждый из которых рассматривается как набор из одной или нескольких ограничивающих рамок. "тип" (пример такого типа в реальном документе Это могут быть абзацы, заголовки, графика и т.д.). каждая граница Коробка представлена в виде четверки, состоящей из наименьшего ее значения. и максимальные координаты x и y в документе. Координаты нормированы, чтобы соответствовать единице 1 × 1 квадрат. Мера сходства между двумя нормализованными документами D1 и D2 рассчитываются в два этапа: веса присваиваются Пара ящиков, максимальное совпадение веса между ящиками.
Назначьте веса парам ящиков. Мы хотим присвоить веса парам ящиков так, чтобы пары, подобные примерно в том же месте и примерно там же площади, будет иметь больший вес. Далее мы будем Используйте эти веса, чтобы назначить совпадения с максимальным весом Между ящиком D1 и ящиком D2 общая оценка сходства — это просто общий вес совпадения.
Рис. 5. Учитывая макет документа для ICDAR2015, мы показываем Ближайшие соседи получены вероятностным методом, описанным в [31], и ближайшие соседи с использованием нашего метода. цвет Легенда: заголовки, абзацы, нижние колонтитулы, номера страниц, рисунки.
Предполагатьидве нормализованные ограничивающие рамки, где X-координата представления коробкии Y-координация. еслииОни разные типа, вес между ними(По существу это означает, что разные типы ящиков не могут совпадение). В противном случае мы вычисляем вес как
где параметры,,Определяется следующим образом: позиционные параметрыдаиОтносительное евклидово расстояние между центрами документ. мы хотим уменьшитьиесли они далеко друг от друга. Разница в форме есть иширина и высота соответственно.
Из-за большей ограничивающей рамки в «Общий вид» файла, который мы хотим указать На краях между большими коробками больше веса. Таким образом, мы определяем фактор площади как, Мы выбираем. Чтобы объяснить этот выбор, обратите внимание, что изменение константы на C = 1 назначит Края между коробочками почти невесомы, аЭтот тип кромки сильно поддерживается. Наконец, мы установили Постоянная формы. это значит форма Разница между двумя коробками Их веса рассчитываются больше, чем позиционные параметры.
Максимальное соответствие веса между коробками. Рассмотрим двудольный граф, часть которого содержитвсе коробки в то время как другая частьвсе коробки , и
ивес краяза как указано выше. мы находим соответствие максимального весаВ этом двудольном графе Венгерское право [9].показатель сходства междуопределяется как
其中总和超过所有对 (B1,B2) ∈ M(D1,D2)。 существует 补充材料,我们提供可视化 DocSim 携带的匹配程序。
5. Экспериментальные результаты
Чтобы оценить наш метод создания макета, мы провели несколько серий экспериментов, направленных на понимание имеет ли результирующий макет переменную высоту, и Визуально - аналогично учебному документу. Мы также демонстрируем их полезность в качестве обучающих данных для анализа документов. Задача. В дополнительном материале мы подробно Анализ абляции объясняет наш выбор дизайна Количество SRE/SRD. Оцениваем наш RvNN-VAE Кадры на следующих двух наборах данных.
Набор данных ICDAR2015. Мы используем общедоступный набор данных ICDAR2015 [1], содержащий 478 документов. С журнальными статьями в качестве темы. Для этих документов мы рассматриваем следующие семантические категории: заголовки, абзацы, нижние колонтитулы, номера страниц и графику.
Запрошенный пользователем (США) набор данных. Мы собрали набор данных 2036 Документы, запрашивающие информацию о пользователе (налоговые формы, банковское заявление и др.). Эти файлы обычно имеют очень сложную структуру и большое количество атомарный элемент. Эти свойства представляют собой интересную проблему для генеративных моделей при создании документов. макет. Для этих типов документов мы рассматриваем следующие семантические категории: ключ-значение, заголовок и абзац. Поле «ключ-значение» — это область с одним вопросом (ключом). Пользователь должен ответить/адресовать (значение). как набор данных Мы собрали незаполненные документы, поля ключ-значение Содержит поля, которые должен заполнить пользователь. Мы семантически аннотируем все категории с помощью Amazon Mechanical Turk (AMT).
Обучение: мы используем фреймворк PyTorch [21] с Размер пакета составляет 128, а скорость обучения — 3*10-4. В среднем количество семантически аннотированных ограничивающих рамок В тренировочном наборе США 27,73 (минимум = 13, максимум = 45), 17,61 (минимум = 3, максимум = 75) для обучающего набора ICDAR2015. как показано на рисунке В двух крайних правых столбцах Таблицы 4 мы подсчитываем наши Сгенерированные данные аналогичны. Обучение занимает почти 24 часа Около 10 часов на ICDAR2015 по набору данных США Набор данных на графическом процессоре NVIDIA GTX 1080 Ti.
5.1 Количественная оценка
Мы используем нашу предложенную меру подобия, DocSim, Количественная оценка нашего метода генерации макета. изменять Измерьте сходство макета наших сгенерированных документов к потенциальному распространению макета документа, от Мы отбираем обучающие данные, перебираем обучающий и тестовый наборы, и для каждого документа в этих наборах мы Найдите ближайших соседей в нашем сгенерированном макете. к этому концу конец, ближайшим соседом документа D является документ D0, такой, что оценка достигает максимума DocSim(D, D0), соответственно, D относится к Набор данных D определяется как maxD0 ∈ DDocSim(D, D0). в нашем Эксперимент с ближайшим соседом, мы отфильтровываем документ D0 Любая категория с более чем 3 ячейками сверху или снизу (до удаления перекрытия) D.
в наборе данных ICDAR2015. За основу получаем Синтетический макет с использованием описанного вероятностного метода В [31] используется их публичная реализация. Стоит отметить, что основное внимание в [31] уделяется семантической сегментации. Документы и методы их вероятностного синтеза (выводит один, два и три столбца документов) как Разработан в качестве помощника для их основной учебной задачи.
В методе вероятностного синтеза [31] маркер Ящики отбираются в соответствии с заранее определенным распределением (например, выберите абзацы с вероятностью q). мы получили Установить P из 5k раскладок по вероятностной схеме [31] Синтез абзаца макета и заголовка Класс графика, выберите вероятности 0,1, 0,7 и 0,2, соответственно. Аналогичным образом мы получаем набор G из 5 тыс. макетов, сгенерированных нашей инфраструктурой RVNN-VAE, где мы Учебный набор T из 400 документов с использованием icdar2015. Набор T0 из всех оставшихся 78 документов из ICDAR2015 считается нашим тестовым набором.
Мы проводим эксперименты, сравнивая базовую коллекцию P В зависимости от того, насколько хорошо они захватывают, наша серия G Потенциальное пространство макета документа, оценка использования Наша оценка DocSim. Сначала выполняем следующее: для любого Для обучающего файла T ∈ T мы выбираем GT ∈ G как Создавайте документы из нашей коллекции, максимизируя DocSim(T, G) между всеми ∈ G и подобными ypt ∈ pas Документы из вероятностной синтетической коллекции, которая максимизирует DocSim(T, P) среди всех P ∈ P. Затем оценка сходства между T и G рассчитывается как Среднее значение DocSim(T, GT) по всем T ∈ T; оценка сходства между T и P вычисляется с использованием моделирования DocSim(T, PT) для всех T ∈ T. Наконец, мы повторяем В приведенных выше экспериментах используйте тест вместо обучающей выборки T УстановитьT0.
Рисунок 6. Учитывая макет документа, сгенерированный нашим методом, мы извлекаем три ближайших макета из обучающего набора (ICDAR2015 в верхний ряд, мы в нижнем ряду) и три ближайших к сгенерированному набору. Цветовая легенда (ICDAR2015): см. рис. 5. Легенда цвета (США): Заголовки, абзацы, ключи-значения.
Таблица 1. Пространственный анализ макета документа. Следуя [11], Мы используем индекс перекрытия и индекс выравнивания семантических сущностей как Еще одна мера оценки нашего макета.
Оценки, приведенные в таблице 2, демонстрируют, что макет нашего выученного документа структурно более похож на образцы из набора данных ICDAR2015, показывающие, что наша сеть способна осмысленно узнавать об основном распределении макетов документов, на которых она была обучена.
Кроме того, после оценки мы используем количественный анализ индекса перекрытия и выравнивания. Ли и др. [11]. Индекс перекрытия представляет собой процент от общего количества. Область перекрытия между двумя двумя граничными прямоугольниками Целая страница. Вторая метрика, выровненный индекс, рассчитывается путем поиска минимальных стандартных отклонений. Левая координата или центральные координаты всех рамок. Таблица 1 Показать реальный макет ICDAR2015 [1], вероятностный макет [31] и процент перекрывающихся индексов и индексов выравнивания, которые мы генерируем. Как показано в Таблица, наши результаты Данные обучения, докажите, что наше решение собирает эти данные Индикатор очень хороший (и лучше, чем вероятность) макет). Кроме того, мы также демонстрируем распределение коробки и ее размер в макете.
в наборе данных США. Потому что мы не знаем предыдущую работу для разрешения этих типов файлов у нас нет Базовый метод для сравнения. Однако мы можем исследовать способность нашей сети к обучению на этом наборе данных, который содержит относительно большое количество документации (2036). Поэтому помимо обучения нашей сети Полный набор данных, мы также используем меньший набор обучающих выборок.
Поскольку весь набор данных США сильно варьируется, мы вычисляем нашу Оценка сходства для каждой пары макетов документов в Весь набор данных США и разделить набор данных на пять групп (с использованием спектральной кластеризации). Затем мы обучаем нашу сеть Для кластеров не менее чем с 500 документами используйте 80-20. Обучайте и тестируйте разбивки и создавайте макеты документов размером 2 КБ для каждый кластер.
Затем мы сравниваем оценки сходства, полученные путем обучения на всем наборе данных США, с Кластер США (среднее значение всех баллов кластера). Интересно, что результаты обучения/тестирования почти равны. то же (небольшое преимущество в очках от 0,002 до 0,003 Для всего набора данных США это 2-3% преимущество). Это показывает, что наш метод не требует больших Количество данных, соответствующее скрытому пространству обучения настроен довольно хорошо; на самом деле, как показано в относительных Схожие оценки, модели, обученные захвату кластера Параметры скрытого пространства для обучения примерно такие же, как Полный набор обученных моделей. На рисунке 6 мы показываем Три ближайших макета документа из обучающего набора Случайно выбранные образцы макетов, созданные с использованием нашего метода. Как показано в трех средних столбцах, три столбца Ближайшие обучающие образцы имеют некоторое сходство с нашим сгенерированным макетом, но они не совпадают, дальнейшая проверка Новизна сгенерированных образцов. Крайний правый столбец, описывающий ближайших соседей в сгенерированном наборе, Проиллюстрированы вариации полученных результатов. Проверять Дополнительный материал для получения дополнительных результатов.
5.2 Увеличение данных для задач обнаружения
Таблица 2. Сравнение нашего метода с вероятностными методами Из [31] с точки зрения сходства с базовым распределением Набор данных (разделенный на обучение и тестирование).
Таблица 3. Производительность обнаружения и сегментации усиленных пар Набор данных ICDAR2015 [1] с использованием аугментации данных (вторая строка), синтетические выборки с вероятностной компоновкой (третья строка) Или макет, который мы выучили (нижний ряд).
Чтобы продемонстрировать полезность нашего сгенерированного макета, мы Для документов выполняются стандартные задачи обнаружения, а обучающие данные дополняются макетными документами, созданными нашим методом. Тренируем маску R-CNN [6], популярная сеть обнаружения и сегментации объектов, Оценить полученные результаты на наборе данных ICDAR2015 С увеличением данных или без него.
Чтобы сгенерировать обучающие образцы для Mask R-CNN, мы вводим контент в наш сгенерированный макет (обученный на 400 документах набора данных ICDAR2015). Для этого мы скребем Текст и изображения из Википедии. Мы также синтезируем обучающие выборки с использованием описанного вероятностного метода В [31] мы сравниваем наши результаты с Дополните набор данных своей документацией. Контент в обоих случаях выбирается из одних и тех же очищенных данных. Так что разница только в компоновке. Кроме того, мы Сравнивая наши результаты со стандартными методами увеличения, Он использует фотометрические и геометрические улучшения для обогащения набора данных ICDAR2015 (см. Дополнительный материал для некоторых примеров улучшения). В таблице 3 мы сравниваем Обнаружение ограничительной рамки и результаты сегментации полученные путем обучения на разных наборах данных. для обоих типов В результатах (поле/маска) мы сообщаем среднюю точность (AP) Средний балл превышает порог IoU и определенные значения IoU (AP50, AP75). Сообщенные результаты превзошли оставшиеся 78 документов, по которым мы не тренировались. как стол Демо, наши сгенерированные макеты постоянно совершенствуются Оценка IoU по обнаружению и сегментации (не менее 3%). существует Для сравнения, баллы, полученные с синтезированными документами Использование вероятностных методов или использование обычных методов увеличения почти идентично полученной оценке. В наборе данных аугментация не выполняется. улучшен Производительность иллюстрирует огромную важность сильно изменчивых макетов для создания значимых синтетических данных, подтверждая, что наша техника успешно изучает распределения макетов, аналогичные входному набору данных.
5.3 Сравнение с предыдущим
Таблица 4. Сравнение с предыдущей работой по количеству образцов, использованных для обучения, количеству семантических категорий в обучающем наборе и среднему количеству блоков на сгенерированный документ.
Насколько нам известно, LayoutGAN [11] Предварительная работа только для нашего фона. из-за отсутствия рекламы [11], мы проводим количественные сравнения статистики метода и представляем Они приведены в таблице 4, и, как и в [11], мы сравниваем их с использованием показателей перекрытия и выравнивания (как описано ранее). Между реальным макетом, нашим сгенерированным макетом и вероятностным макетом макет (см. табл. 1).
6. Резюме ибудущееПерспектива
В этой работе мы предлагаем новый метод создания синтетических макетов для 2D-документов, включая рекуррентные нейронные сети и вариационные автоэнкодеры. Мы также вводим метрику для измерения сходства документов.DocSim, и используйте этот показатель, чтобы продемонстрировать новизну и разнообразие созданных нами макетов.
Наш метод имеет несколько ограничений. Во-первых, Несмотря на то, что наш подход может генерировать сильно изменчивые макеты с десятками элементов, мы пока не можем генерировать очень сложные макеты (например, налоговая форма США 1040), и его понимание того, как надежно представлять и генерировать такие макеты, будет очень интересным. Во-вторых, созданные нами макеты могут содержать нежелательные артефакты, такие как несовпадение и перекрытие блоков. Мы справляемся с этими артефактами, используя простые эвристики, но, возможно, более систематическое решение состоит в том, чтобы объединить текущую структуру с GAN, Это будет способствовать визуальному сходству сгенерированных макетов с обучающими образцами.
В будущем дополним наше использование подходящих генеративных методов для создания макетов. Учитывая «содержательную» верстку качественного смыслового наполнения. Кроме того, хотя наша сеть не требует большого количества аннотированных данных, еще предстоит выяснить, есть ли способ разработать методы генерации макетов, которые требуют меньше аннотированных обучающих данных, возможно, за один раз, или несколько методов для создания разумных и "похожий" Схема «Найти». Наконец, было показано (здесь и в предыдущих работах), что рекуррентные нейронные сети генерируют «искусственные» иерархии, такие как документы и внутренние сцены. Могут ли они быть включены для создания высокоструктурированных естественных сцен?