Это пятый день моего участия в ноябрьском испытании обновлений, подробности о мероприятии:Вызов последнего обновления 2021 г.

Резюме

Лингвистические знания очень полезны для распознавания текста сцены. Однако то, как эффективно моделировать языковые правила в сквозных глубоких сетях, остается исследовательской задачей. В этой статье мы утверждаем, что ограниченные возможности языковых моделей обусловлены: 1) неявным языковым моделированием, 2) односторонним представлением признаков и 3) языковыми моделями с зашумленными входными данными. Соответственно, мы предлагаем автономную, двунаправленную и итеративную ABINet для распознавания текста сцены. Во-первых, предложение об автономии блокирует градиентный поток между моделями зрения и языковыми моделями для явного выполнения языкового моделирования. Во-вторых, в качестве языковой модели предлагается новая двунаправленная сеть Cloze (BCN), основанная на двунаправленном представлении признаков. В-третьих, мы предлагаем способ выполнения итеративной коррекции языковых моделей, который может эффективно смягчить влияние зашумленных входных данных. Кроме того, на основе ансамбля итерационных прогнозов мы предлагаем метод самообучения, который может эффективно учиться на немаркированных изображениях. Обширные эксперименты показывают, что ABINet имеет преимущества на изображениях низкого качества и достигает самых современных результатов в нескольких основных тестах. Кроме того, ABINet, обученный с помощью ансамблевого самообучения, демонстрирует многообещающие улучшения в достижении распознавания на уровне человека. Код доступен по адресуGitHub.com/клыкиполучить.

1. Введение

Возможность чтения текста с изображений сцен имеет важное значение для искусственного интеллекта [24, 41]. С этой целью ранние попытки рассматривали символы как бессмысленные символы и идентифицировали эти символы с помощью моделей классификации [42, 15]. Однако при столкновении со сложными условиями, такими как окклюзия, размытие, шум и т. Д., Изображение становится размытым из-за визуального различения. К счастью, поскольку текст содержит богатую лингвистическую информацию, персонажи можно вывести из контекста. Поэтому ряд методов [16, 14, 29] обратили внимание на языковое моделирование и добились несомненных улучшений.

Однако вопрос о том, как эффективно моделировать языковое поведение при чтении человеком, остается открытым. Из психологических наблюдений мы можем сделать три предположения о человеческом чтении, что языковое моделирование является автономным, двунаправленным и итеративным: 1) Поскольку и глухие, и слепые люди могут иметь полностью функциональное зрение и язык соответственно, обучения между зрением и языком. Автономия также означает хорошее взаимодействие между зрением и языком, а самостоятельно выученные языковые знания помогают распознавать символы в видении. 2) Вывод контекста символа ведет себя как задача закрытия, поскольку неразборчивые символы можно рассматривать как пробелы. Следовательно, можно делать прогнозы с подсказками разборчивых символов слева и справа от неразборчивых символов одновременно, что соответствует двунаправленности. 3) Итеративная описывает, что в сложных условиях люди используют пошаговые стратегии для повышения достоверности прогноза путем итеративной корректировки результатов распознавания.

Во-первых, применение принципа автономии к распознаванию текста сцены (STR) подразумевает, что модель распознавания должна быть разделена на модель зрения (VM) и языковую модель (LM), а подмодели могут изучаться индивидуально как независимые функциональные единицы. . Недавние подходы, основанные на внимании, обычно разрабатывают LM на основе RNN или Transformers [39], где языковые правила неявно изучаются в связанных моделях [19, 36, 33] (рис. 1a). Однако неизвестно, изучает ли LM ролевые отношения и каким образом. Кроме того, этот подход не позволяет получить обширные предварительные знания путем непосредственной предварительной подготовки LM из крупномасштабного неразмеченного текста.

Во-вторых, по сравнению с однонаправленными ЛМ [38], ЛМ с двунаправленным принципом собирают в два раза больше информации. Простым способом построения двунаправленной модели является объединение моделей слева направо и справа налево [28, 5] на уровне вероятности [44, 36] или уровне признаков [49] (рис. 1e). Однако на самом деле они не так сильны, потому что их лингвистические особенности на самом деле представляют собой однонаправленные представления. Кроме того, ансамблевая модель означает удвоение затрат с точки зрения вычислений и параметров. Недавняя известная работа по НЛП — BERT [5], в которой представлены глубокие двунаправленные представления, полученные путем маскирования текстовых токенов. Применение BERT непосредственно к STR требует маскирования всех символов в текстовом экземпляре, что дорого, поскольку за один раз можно маскировать только один символ.

В-третьих, LM, выполняемые по итеративному принципу, могут уточнять прогнозы на основе визуальных и лингвистических сигналов, которые не исследуются в современных методах. Типичным способом выполнения LM является авторегрессия [44, 3, 45] (рис. 1d), где ошибочные идентификации накапливаются как шум и используются в качестве входных данных для последующих прогнозов. Чтобы приспособиться к архитектуре Transformer, [25, 49] отказались от авторегрессии и приняли параллельное предсказание (рис. 1e) для повышения эффективности. Тем не менее, в параллельных прогнозах все еще существуют зашумленные входные данные, где ошибки выходных данных VM напрямую снижают точность LM. Кроме того, параллельное предсказание в SRN [49] страдает от проблем с несовпадением длины, что затрудняет для SRN вывод правильных символов, если виртуальная машина неправильно предсказывает длину текста.

Учитывая недостатки существующих методов с точки зрения внутреннего взаимодействия, представления функций и выполнения, мы предлагаем ABINet, основанный на автономных, двунаправленных и итеративных принципах. Во-первых, мы исследуем подход разделения, блокируя градиентный поток (BGF) между VM и LM (рис. 1b), что заставляет LM явно изучать языковые правила. Кроме того, и VM, и LM являются автономными единицами, которые можно предварительно обучать на изображениях и тексте соответственно. Во-вторых, мы разрабатываем новую двунаправленную закрытую сеть (BCN) в качестве LM, устраняя дилемму объединения двух однонаправленных моделей (рис. 1c). BCN обусловлен левым и правым контекстами и контролирует доступ к символам с обеих сторон, указывая маску внимания. Кроме того, не допускается перекрестный доступ, чтобы предотвратить утечку информации. В-третьих, мы предлагаем способ выполнения итеративной коррекции ЛМ (рис. 1б). Путем повторной подачи выходных данных ABINet в LM предсказание может быть постепенно улучшено, а проблема несовмещенной длины может быть смягчена до некоторой степени. Кроме того, рассматривая итеративное прогнозирование в целом, исследуется полууправляемый подход, основанный на самообучении, который использует новые решения для распознавания на уровне человека.

Вклад этой статьи в основном включает в себя: 1) Мы предлагаем автономные, двунаправленные и итеративные принципы для управления проектированием LM в STR. В соответствии с этими принципами LM является функциональным блоком, который требуется для итеративного извлечения двунаправленных представлений и создания правильных прогнозов. 2) Введен новый BCN, который использует двунаправленное представление для оценки распределения вероятностей символов, таких как задачи закрытия. 3) Предлагаемая ABINet достигает самых современных (SOTA) характеристик на основных тестах, а ABINet, обученная с помощью ансамблевого самообучения, демонстрирует многообещающие улучшения в достижении распознавания на уровне человека.

2. Связанная работа

2.1. Безъязыковый подход

Методы, не связанные с языком, обычно используют визуальные функции без учета взаимосвязи между символами, такие как методы на основе CTC [7] и методы на основе сегментации [21]. Методы на основе CTC используют CNN для извлечения визуальных признаков и RNN для моделирования последовательностей признаков. Затем CNN и RNN обучаются от начала до конца, используя потери CTC [34, 11, 37, 12]. Методы на основе сегментации применяют FCN для сегментации символов на уровне пикселей. Ляо и др. идентифицируют символы, группируя сегментированные пиксели в текстовые области. Ван и др. [40] предлагают дополнительную карту последовательной сегментации, которая транскрибирует символы в правильном порядке. Из-за недостатка лингвистической информации безъязыковые методы плохо подходят для решения задачи распознавания на изображениях низкого качества.

2.2. Языковые методы

Внутреннее взаимодействие между зрением и языком.В некоторых ранних работах пакеты текстовых строк для N-грамм предсказываются CNN, которая действует как явный LM [14, 16, 13]. После этого стали популярными методы, основанные на внимании, которые неявно моделируют язык с помощью более мощных RNN [19, 36] или Transformers [43, 33]. Методы, основанные на внимании, следуют архитектуре кодер-декодер, где кодер обрабатывает изображение, а декодер учится на характеристиках одномерного изображения [19, 35, 36, 3, 4] или характеристиках двумерного изображения [48, 45, 23], 20]. . Например, R2AM [19] использует рекурсивную CNN в качестве экстрактора признаков и LSTM в качестве изученного языка неявного моделирования на уровне символов LM, избегая использования N-грамм. Кроме того, этот подход часто улучшается за счет интеграции модуля коррекции нерегулярных изображений [36, 51, 47] перед подачей изображений в сеть. В отличие от вышеупомянутых методов, наш метод направлен на создание более мощных LM посредством явного языкового моделирования. При попытке улучшить языковое представление в некоторых работах вводятся множественные потери, причем дополнительные потери связаны с семантикой [29, 25, 49, 6]. Среди них SEED [29] предложил использовать предварительно обученную модель FastText для управления обучением RNN, предоставляя дополнительную семантическую информацию. Мы отклоняемся от этого, потому что наш метод предварительно обучает LM непосредственно на неразмеченном тексте, что на практике более осуществимо.

Представление особенностей языка.Последовательности символов в методах, основанных на внимании, обычно моделируются слева направо [19, 35, 3, 40]. Например, Textscanner [40] наследует однонаправленную модель методов, основанных на внимании. Иными словами, они используют дополнительную ветвь местоположения, чтобы улучшить информацию о местоположении и уменьшить ошибочную идентификацию в сценах без контекста. Для использования двунаправленной информации такие методы, как [8, 36, 44, 49], используют ансамблевую модель двух однонаправленных моделей. В частности, чтобы зафиксировать глобальный семантический контекст, SRN [49] объединяет функции преобразователей слева направо и справа налево для дальнейшего прогнозирования. Мы подчеркиваем, что ансамблевые двунаправленные модели по своей сути являются однонаправленными представлениями признаков.

Как выполняется языковая модель.В настоящее время сетевая архитектура LM в основном основана на RNN и Transformer [39]. LM на основе RNN обычно выполняются в авторегрессии [44, 3, 45], которая принимает в качестве входных данных предсказание последнего символа. Типичные работы, такие как DAN [44], сначала используют предложенный модуль сверточного выравнивания для получения визуальных признаков для каждого символа. После этого GRU предсказывает каждый символ, принимая в качестве входных данных предсказанное встраивание последнего временного шага и характерные черты текущего временного шага. Методы на основе преобразователя имеют преимущества при параллельном выполнении, когда входными данными на каждом временном шаге являются либо визуальные признаки [25], либо встраивания символов из предсказаний визуальных признаков [49]. Наш подход относится к параллельному выполнению, но мы пытаемся облегчить проблему зашумленного ввода, которая существует в параллельных языковых моделях.

3. Предлагаемый метод

3.1 Визуальная модель

Модель зрения состоит из магистральной сети и модуля внимания к местоположению (рис. 3). Следуя предыдущим методам, ResNet1 [36, 44] и блоки Transformer [49, 25] используются в качестве сети извлечения признаков и сети моделирования последовательности. Для изображения x имеем:

\mathbf{F}_{b}=\mathcal{T}(\mathcal{R}(\boldsymbol{x})) \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times C}

где H, W — размер x, а C — размер объекта.

Модуль позиционного внимания параллельно преобразует визуальные признаки в вероятности символов на основе парадигмы запроса [39]:

\mathbf{F}_{v}=\operatorname{softmax}\left(\frac{\mathbf{Q K}^{\top}}{\sqrt{C}}\right) \mathbf{V}

Конкретно, $\mathbf{Q} \in \mathbb{R}^{T \times C}$ — позиционное кодирование последовательности символов [39], а T — длина последовательности символов.

$\mathbf{K}=\mathcal{G}\left(\mathbf{F}_{b}\right) \in \mathbb{R}^{\frac{H W}{16} \times C}$ ,в $\mathcal{G}\left(.\right)$ Реализован Tiny U-Net2 [32]. $\mathbf{V}=\mathcal{H}\left(\mathbf{F}_{b}\right) \in \mathbb{R}^{\frac{H W}{16} \times C}$ ,в $\mathcal{H}\left(.\right)$ является картой идентичности.

3.2, языковая модель

3.2.1 Автономная стратегия

Как показано на рисунке 2, автономная стратегия включает в себя следующие особенности: 1) LM рассматривается как независимая модель исправления орфографии, которая принимает вектор вероятности символов в качестве входных данных и выводит распределение вероятностей желаемых символов. 2) Блокируется поток обучающих градиентов на входном векторе (BGF). 3) LM можно обучать отдельно от неразмеченных текстовых данных.

Следуя автономной стратегии, ABINet можно разделить на интерпретируемые блоки. Принимая вероятности в качестве входных данных, LM можно заменять (т. е. напрямую заменять более мощной моделью) и гибко (например, выполнять итеративно в разделе 3.2.3). Также важным моментом является то, что BGF неизбежно заставляет модель обучаться лингвистическим знаниям, что принципиально отличается от имплицитного обучения. Моделирование, где именно то, чему научилась модель, не зависит. Кроме того, автономные стратегии позволяют нам напрямую делиться прогрессом в сообществе НЛП. Например, предварительная подготовка LM может быть эффективным способом повышения производительности.

3.2.2 Двунаправленное представление

дана текстовая строка $\boldsymbol{y}=\left(y_{1}, \ldots, y_{n}\right)$ , длина текста n, количество категорий c, в двусторонней и односторонней моделях $y_{i}$ Условная вероятность $P\left(y_{i} \mid y_{n}, \ldots, y_{i+1}, y_{i-1}, \ldots, y_{1}\right)$ и $P\left(y_{i} \mid y_{i-1}, \ldots, y_{1}\right)$ соответственно. С точки зрения теории информации доступная энтропия двунаправленного представления может быть количественно определена как $H_{y}=(n-1) \log c .$ . Однако для одностороннего представления информация $\frac{1}{n} \sum_{i=1}^{n}(i-1) \log c=\frac{1}{2} H_{y}$ . Наше понимание состоит в том, что предыдущие методы обычно используют модель ансамбля двух однонаправленных моделей, которые по своей сути являются однонаправленными представлениями. Одностороннее представление в основном захватывает $\frac{1}{2} H_{y}$ информации, что приводит к ограниченным возможностям абстракции функций по сравнению с двунаправленными представлениями.

Готовые модели НЛП с возможностью исправления орфографии могут быть перенесены, используя автономный дизайн, описанный в разделе 3.2.1. Одним из возможных подходов является использование модели маскированного языка (MLM) в BERT [5], заменяя yi токеном [MASK]. Однако отметим, что это неприемлемо, так как MLM должен вызываться n раз индивидуально для каждого экземпляра текста, что приводит к крайней неэффективности. Вместо того, чтобы маскировать вводимые символы, мы предлагаем BCN, указав маску внимания.

В общем, BCN — это вариант преобразователя-декодера L-уровня. Каждый уровень BCN представляет собой серию сетей с несколькими головками и прямой связью [39], за которыми следуют остаточные соединения [10] и нормализация уровня [1], как показано на рисунке 4. В отличие от ванильного преобразователя, векторы признаков передаются в блок внимания с несколькими головками вместо сети первого уровня. Кроме того, маска внимания при многоголовом внимании предназначена для предотвращения «видеть себя». Кроме того, в BCN не используется внутреннее внимание, чтобы избежать утечки информации через временные интервалы. Операцию внимания в многоголовом блоке можно формализовать как:

\begin{aligned} \mathbf{M}_{i j} &= \begin{cases}0, & i \neq j \\ -\infty, & i=j\end{cases} \\ \mathbf{K}_{i} &=\mathbf{V}_{i}=P\left(y_{i}\right) \mathbf{W}_{l} \\ \mathbf{F}_{m h a} &=\operatorname{softmax}\left(\frac{\mathbf{Q K}^{\top}}{\sqrt{C}}+\mathbf{M}\right) \mathbf{V} \end{aligned}

в $\mathbf{Q} \in \mathbb{R}^{T \times C}$ это позиционное кодирование порядка символов в первом слое, в противном случае вывод последнего слоя. $\mathbf{K},\mathbf{V} \in \mathbb{R}^{T \times C}$ по вероятности появления символов $P\left(y_{i}\right) \in \mathbb{R}^{c}$ получить, $\mathbf{W}_{l} \in \mathbb{R}^{c \times C}$ является матрицей линейного отображения. $\mathbf{M} \in \mathbb{R}^{T \times T}$ это матрица маски внимания, которая предотвращает внимание к текущему символу. После объединения слоев BCN в глубокую архитектуру определяется двунаправленное представление текста y. $F_{l}$ .

Указав маску внимания в закрытой форме, BCN может элегантно изучить двунаправленные представления, которые являются более мощными, чем ансамбли однонаправленных представлений. Кроме того, благодаря архитектуре, подобной Transformer, BCN может выполнять вычисления независимо и параллельно. Кроме того, она более эффективна, чем ансамблевая модель, потому что требуется только половина вычислений и параметров.

3.2.3 Итерационная коррекция

Параллельное предсказание Transformers принимает зашумленные входные данные, которые обычно представляют собой визуальные предсказания [49] или аппроксимации визуальных признаков [25]. В частности, в примере двунаправленного представления, показанном на фиг. 2, идеальным условием для P ("0") является "SH-WING". Однако из-за размытия окружающей среды и окклюзии реальная ситуация, полученная от VM, представляет собой «SH-VING», где «V» становится шумом, что ставит под угрозу достоверность прогноза. По мере увеличения количества ошибочных прогнозов в VM он становится более враждебным по отношению к LM.

Чтобы решить проблему зашумленных входных данных, мы предлагаем итеративный LM (показан на рисунке 2). LM повторяется M раз с разными значениями y. Для первой итерации yi=1 — это вероятностный прогноз виртуальной машины. Для последующих итераций yi ≥ 2 является вероятностным прогнозом объединенной модели (раздел 3.3) в предыдущей итерации. Таким образом, LM может итеративно корректировать визуальные прогнозы.

Еще одно наблюдение заключается в том, что методы на основе Transformer часто страдают от проблем с несовпадением длины [49], что говорит о том, что Transformer испытывает трудности с исправлением визуальных прогнозов, если количество символов не соответствует истине. Проблема неправильной длины вызвана неизбежной реализацией маски заполнения, которая исправлена для фильтрации контекста за пределами длины текста. Наш итеративный LM может облегчить эту проблему, потому что визуальные и лингвистические особенности объединяются несколько раз, поэтому прогнозируемая длина текста постепенно уточняется.

3.3. Слияние

Концептуально модели зрения, обученные на изображениях, и языковые модели, обученные на тексте, исходят из разных модальностей. Чтобы согласовать визуальные и лингвистические особенности, мы просто используем механизм селекции [49, 50] для окончательного решения:

\begin{aligned} \mathbf{G} &=\sigma\left(\left[\mathbf{F}_{v}, \mathbf{F}_{l}\right] \mathbf{W}_{f}\right) \\ \mathbf{F}_{f} &=\mathbf{G} \odot \mathbf{F}_{v}+(1-\mathbf{G}) \odot \mathbf{F}_{l} \end{aligned}

в $\mathbf{W}_{f} \in \mathbb{R}^{2 C \times C}$ и $\mathbf{G} \in \mathbb{R}^{T \times C}$ .

3.4. Обучение под наблюдением

ABINet проходит сквозное обучение с использованием следующих многозадачных задач:

\mathcal{L}=\lambda_{v} \mathcal{L}_{v}+\frac{\lambda_{l}}{M} \sum_{i=1}^{M} \mathcal{L}_{l}^{i}+\frac{1}{M} \sum_{i=1}^{M} \mathcal{L}_{f}^{i}

в $\mathcal{L}_{v}, \mathcal{L}_{l}$ и $\mathcal{L}_{f}$ да $Кросс-энтропийная потеря \mathbf{F}_{v}$ , $\mathbf{F}_{l}$ и $\mathbf{F}_{f}$ соответственно. Конкретно, $\mathcal{L}_{l}^{i}$ и $\mathcal{L}_{f}^{i}$ первый $i$ потери для следующей итерации. $\lambda_{v}$ и $\lambda_{l}$ является балансовым фактором.

3.5 Самообучение ансамбля с полууправлением

Для дальнейшего изучения превосходства нашей итеративной модели мы предлагаем полууправляемый метод обучения [46], основанный на самообучении и множестве итерационных прогнозов. Основная идея самообучения состоит в том, чтобы сначала сгенерировать псевдометки самой моделью, а затем переобучить модель дополнительными псевдометками. Поэтому ключевой проблемой является построение качественных псевдометок.

Для фильтрации шумных псевдометок мы предлагаем следующие методы: 1) В качестве достоверности текста выбрать минимальную достоверность символов в экземпляре текста. 2) Итеративное предсказание каждого символа обрабатывается как единое целое, чтобы сгладить эффект зашумленных меток. Поэтому мы определяем функцию фильтра следующим образом:

\left\{\begin{array}{l} \mathcal{C}=\min _{1 \leq t \leq T} e^{\mathbb{E}\left[\log P\left(y_{t}\right)\right]} \\ P\left(y_{t}\right)=\max _{1 \leq m \leq M} P_{m}\left(y_{t}\right) \end{array}\right.

в $\mathcal{C}$ минимальная достоверность экземпляра текста, $P_{m}\left(y_{t}\right)$ да $m$ -я итерация $t$ Распределение вероятностей -х символов Процесс обучения показан в Алгоритме 1, где $Q$ является порогом. $B_{l}, B_{u}$ являются обучающими партиями из размеченных и неразмеченных данных. $N_{\max }$ - максимальное количество шагов обучения, $N_{u p l}$ количество шагов для обновления псевдометок.

4. Эксперимент

4.1 Набор данных и детали эксперимента

Для объективного сравнения эксперименты проводятся в соответствии с настройками [49]. В частности, обучающие наборы данных представляют собой два синтетических набора данных: MJSynth (MJ) [13, 15] и SynthText (ST) [9]. Шесть стандартных тестов включают ICDAR 2013 (IC13) [18], ICDAR 2015 (IC15) [17], IIIT 5KWords (IIIT) [27], Street View Text (SVT) [42], Street View Text Perspective (SVTP) [ 30] и CUTE80 (CUTE) [31] в качестве тестового набора данных. Детали этих наборов данных можно найти в предыдущих работах [49]. Кроме того, удаление меток Uber-Text [52] используется в качестве немаркированного набора данных для оценки полуконтролируемых методов.

Размер модели $C$ Всегда устанавливайте 512. BCN состоит из 4 слоев, в каждом из которых по 8 головок внимания. коэффициент баланса $\lambda_{v}, \lambda_{l}$ Установите на 1,1 соответственно. Изображения напрямую настраиваются на $32 \times 128$ . Мы используем 4 графических процессора NVIDIA 1080Ti для обучения нашей модели с размером пакета 384. Оптимизатор ADAM принят с начальной скоростью обучения 1e-4 и снижается до 1e-5 после 6 эпох.

4.2 Исследование абляции

4.2.1 Визуальная модель

Во-первых, мы обсудим производительность виртуальных машин как при извлечении признаков, так и при моделировании последовательности. Результаты эксперимента занесены в таблицу. 1. Параллельное внимание — популярный метод внимания [25, 49], а предлагаемое позиционное внимание имеет более мощное векторное представление ключ/значение. Из статистики можно сделать вывод: 1) Простое обновление ВМ приведет к огромному улучшению точности, но за счет параметров и скорости. 2) Чтобы обновить виртуальную машину, мы можем использовать позиционное внимание при извлечении признаков и более глубокое преобразование при моделировании последовательности.

4.2.2, языковая модель

Автономная стратегия. Для анализа автономной модели мы принимаем LV и BCN как VM и LM соответственно. По результатам в табл. 2 Мы можем наблюдать: 1) Предварительное обучение VM полезно, повышая точность в среднем примерно на 0,6–0,7 %; 2) Преимущество предварительного обучения LM на обучающем наборе данных (т. е. MJ и ST) незначительно ; 3) в то время как предварительное обучение LM из дополнительных немаркированных наборов данных (например, WikiText-103) полезно, даже если базовая модель имеет высокую точность. Приведенные выше наблюдения показывают, что STR полезен для предварительной подготовки как VM, так и LM. Предварительное обучение LM на дополнительных немаркированных наборах данных более эффективно, чем обучающие наборы данных, поскольку ограниченное разнообразие текста и предвзятое распределение данных не могут облегчить изучение хорошо работающих LM. Кроме того, предварительное обучение LM на немаркированных наборах данных обходится дешево, поскольку легко доступны дополнительные данные.

Кроме того, при разрешении градиентного потока (AGF) между VM и LM производительность падает в среднем на 0,9% (таблица 2). Мы также замечаем, что потери AGF при обучении резко уменьшаются до более низких значений. ВМ помогает обмануть при обучении, что также может произойти при неявном языковом моделировании.Поэтому крайне важно заставить LM учиться самостоятельно через BGF.Отметим, что SRN [49] использует операцию argmax после ВМ, что по существу является частным случаем BGF, так как argmax не дифференцируем.Другое преимущество состоит в том, что автономная стратегия делает модель более интерпретируемой, поскольку мы можем получить представление о производительности LM (например, таблица 4), которая неявно в нем невозможно в языковом моделировании.

Двунаправленное представление.Поскольку BCN является вариантом Transformer, мы сравниваем BCN с соответствующим ему SRN. SRN на основе трансформатора [49] показывает превосходную производительность, которая представляет собой ансамбль однонаправленных представлений. Для объективного сравнения эксперименты проводятся в тех же условиях, за исключением сети. Мы используем SV и LV в качестве виртуальных машин для проверки уровней эффективности с разной точностью. Как показано в таблице 3, хотя BCN имеет такие же параметры и скорость вывода, что и однонаправленная версия SRN (SRN-U), она обеспечивает конкурентное преимущество в точности при использовании различных виртуальных машин. Кроме того, BCN показывает лучшую производительность по сравнению с двунаправленным SRN в ансамбле, особенно на сложных наборах данных, таких как IC15 и CUTE. Кроме того, ABINet с BCN примерно на 20-25% быстрее, чем SRN, что удобно для крупномасштабных задач.

В разделе 3.2.1 утверждается, что LM можно рассматривать как независимую единицу для оценки распределения вероятности исправления правописания, поэтому мы проводим эксперименты с этой точки зрения. Тренировочный набор — это текст от MJ и ST. Чтобы имитировать орфографические ошибки, тестовый набор представлял собой случайно выбранные 20 000 элементов, в которых мы добавляли или удаляли символ для 20% текста, заменяли символ для 60% текста и оставляли остальную часть текста без изменений. По результатам в табл. 4. Мы видим, что BCN превосходит SRN на 4,5% и 14,3% по точности символов и точности слов соответственно, что указывает на то, что BCN обладает более мощными возможностями в моделировании языка на уровне символов.

Чтобы лучше понять, как BCN работает в ABINet, мы визуализируем 5 лучших вероятностей на рисунке 5, взяв в качестве примера «сегодня». С одной стороны, поскольку «сегодня» — это строка с семантической информацией, с «-oday» и «tod-y» в качестве входных данных, BCN может предсказывать «t» и «a» с высокой степенью достоверности и помогает прогнозировать окончательное слияние. С другой стороны, поскольку ошибочные символы «l» и «o» являются шумом для остальных предсказаний, BCN становится менее уверенным и мало влияет на итоговое предсказание. Кроме того, при наличии нескольких ошибочных символов BCN будет сложно восстановить правильный текст из-за отсутствия достаточного контекста.

Итеративная коррекция.Мы снова применяем SV и LV вместе с BCN, чтобы продемонстрировать эффективность различных уровней итеративной коррекции. Экспериментальные результаты показаны в таблице 5, где количество итераций установлено равным 1, 2 и 3 при обучении и тестировании. Из результатов видно, что повторение BCN 3 раза может повысить точность на 0,4% соответственно, а среднее увеличение составляет 0,3%. В частности, IIIT представляет собой относительно простой набор данных с четкими символами и небольшим усилением. Однако, когда дело доходит до других сложных наборов данных, таких как IC15, SVT и SVTP, итеративная коррекция неуклонно повышает точность и улучшает SVT на 1,3% и 1,0% для SV и LV соответственно. Следует также отметить, что время вывода линейно увеличивается с количеством итераций.

Далее мы исследуем разницу в итерациях между обучением и тестированием. Колебания средней точности на рисунке 6 указывают на то, что: 1) прямое применение итерационной коррекции при тестировании также работает хорошо; 2) итерация при обучении выгодна, поскольку она предоставляет дополнительные обучающие выборки для LM; 3) модель повторяется более 3 раз. Точность насыщает, поэтому большого количества итераций не требуется.

Чтобы получить полную картину итеративной коррекции, мы визуализируем промежуточные прогнозы на рисунке 7. Часто визуальные прогнозы могут быть изменены, чтобы быть близкими к истине, но в некоторых случаях все еще содержат ошибки. После многих итераций прогноз в конечном итоге может быть пересмотрен. Кроме того, мы наблюдаем, что итеративная коррекция может решить проблему смещения длины, как показано в последнем столбце рисунка 7.

Из исследования абляции мы можем сделать вывод: 1) Двунаправленный BCN является мощным LM, который может эффективно улучшить характеристики точности и скорости. 2) Путем дальнейшего оснащения BCN итеративной коррекцией проблему шумного ввода можно смягчить, и рекомендуется иметь дело со сложными примерами, такими как изображения низкого качества, за счет пошаговых вычислений.

4.3 Сравнение с современными технологиями

В общем, нетривиально напрямую использовать сообщенную статистику [2] для справедливого сравнения с другими методами из-за основы (т. е. структуры и параметров CNN), обработки данных (т. е. коррекции изображения и увеличения данных) и приемов обучения. , и т.д. Чтобы строго обеспечить справедливое сравнение, мы воспроизводим SRN алгоритма SOTA, который использует ту же экспериментальную конфигурацию, что и ABINet, как показано в таблице 6. Две повторно реализованные SRN-SV и SRN-LV немного отличаются от представленной модели заменой виртуальной машины, устранением побочных эффектов многомасштабного обучения, применением затухающей скорости обучения и т. д. Обратите внимание, что поскольку SRN-SV работает немного лучше, чем описанный выше трюк SRN. Как видно из сравнения, наш ABINet-SV превосходит на 0,5%, 2,3%, 0,4%, 1,4%, 0,6%, 1,4% наборы данных IC13, SVT, IIIT, IC15, SVTP и CUTE соответственно SRN-SV. Кроме того, ABINet-LV с более мощной ВМ превосходит аналоги на 0,6%, 1,2%, 1,8%, 1,4%, 1,0% в тестах IC13, SVT, IC15, SVTP и CUTE.

ABINet также показывает впечатляющую производительность по сравнению с недавними работами SOTA, обученными на MJ и ST (таблица 6). В частности, ABINet имеет выдающиеся преимущества на SVT, SVTP и IC15, так как эти наборы данных содержат большое количество изображений низкого качества, таких как зашумленные и размытые изображения, которые ВМ не может уверенно идентифицировать. Кроме того, мы также обнаружили, что изображения с необычным шрифтом и неправильным текстом могут быть успешно распознаны, поскольку лингвистическая информация является важным дополнением к визуальным характеристикам. Таким образом, даже без коррекции изображения ABINet достигает второго лучшего результата на CUTE.

4.4. Полуконтролируемое обучение

Чтобы еще больше расширить границы точного чтения, мы исследуем полуконтролируемый подход, который использует MJ и ST в качестве помеченного набора данных и Uber-Text в качестве неразмеченного набора данных. Пороговое значение Q в разделе 3.5 установлено равным 0,9, а размеры партий Bl и Bu равны 256 и 128 соответственно. Результаты эксперимента представлены в таблице. На рисунке 6 показано, что предлагаемый метод самообучения ABINet-LVst может легко превзойти ABINet-LV на всех наборах контрольных данных. Кроме того, самообучающийся ансамбль ABINet-LVest демонстрирует более стабильную работу за счет повышения эффективности использования данных. Глядя на усиленные результаты, мы обнаруживаем, что твердые образцы с разреженными шрифтами и размытым внешним видом также могут часто распознаваться (рис. 8), что позволяет предположить, что изучение полуавтоматических методов обучения является многообещающим направлением для распознавания текста сцены.

5. Заключение

st может легко превзойти ABINet-LV на всех тестовых наборах данных. Кроме того, самообучающийся ансамбль ABINet-LVest демонстрирует более стабильную работу за счет повышения эффективности использования данных. Глядя на усиленные результаты, мы обнаруживаем, что твердые образцы с разреженными шрифтами и размытым внешним видом также могут часто распознаваться (рис. 8), что позволяет предположить, что изучение полуавтоматических методов обучения является многообещающим направлением для распознавания текста сцены.

[Дамп изображения внешней ссылки...(img-LAR5Vyad-1636846680444)]

5. Заключение

В этой статье мы предлагаем ABINet, который исследует эффективные способы использования лингвистических знаний в распознавании текста сцены. ABINet является 1) автономной, что улучшает возможности языковых моделей за счет явного принуждения к обучению; 2) двунаправленной, которая изучает текстовые представления, совместно обусловливая контексты символов с обеих сторон; и 3) итеративной, которая постепенно корректирует прогнозы, чтобы смягчить последствия шумные входы. На основе ABINet мы также предлагаем ансамблевый метод самообучения для полуконтролируемого обучения. Экспериментальные результаты на стандартных бенчмарках демонстрируют превосходство ABINet, особенно на изображениях низкого качества. Кроме того, мы утверждаем, что использование немаркированных данных возможно и обещает признание на уровне человека.