[Перевод] Адаптивный стиль и контент для участия в распознавании текстовой последовательности

Стивен Шварц, [Алекс Горбан] (https://research.google/people/105189/), Дар-Шьянг Ли, Ксавье Жиберт

Перевод: Департамент Али Тао - Аукцион - Ye An

Опубликовано на зимней конференции IEEE по приложениям компьютерного зрения (WACV)

(2020)

оригинал:

Резюме

В этой статье мы достигаем цели обучения изучению неразмеченных языковых данных, полной последовательности OCR на фотографиях дорожных знаков. Наш подход заключается в достижении разумной производительности на неразмеченных изображениях за счет сочетания методов адаптации домена на основе инверсии градиента и схемы многозадачного обучения, используя легко генерируемые синтетические данные и данные на другом размеченном языке. Для этого мы принимаем и публикуем два новых набора данных — «Знаки названий улиц на иврите» (HSNS) и «Синтетические знаки названий улиц на иврите» (SynHSNS), а также используем существующий набор данных «Знаки названий улиц на французском языке» (FSNS). Мы демонстрируем, что транскрипцию реальных названий улиц на иврите можно улучшить, используя синтетический набор данных символов иврита и размеченный набор данных французских названий улиц в естественных изображениях, где синтетические данные на иврите и настоящие французские данные имеют перекрытие по различным признакам с Данные на иврите, которые мы хотим расшифровать.

1. Введение

В настоящее время существует 8 групп языков, использующих алфавит: арабский, арамейский, армянский, санскрит, кириллица, грузинский, греческий и латинский - каждая из которых широко распространена в общей сложности на диалекте. Большинству этих языков трудно найти квалифицированных операторов для маркировки больших наборов данных по разумной цене. Без лучших способов обучения системы новым языкам создание систем распознавания текста для изображений реального текста, таких как Google Street View, который поддерживает нелатинские языки, нецелесообразно.

В настоящее время большинство систем OCR последовательностей обучаются с использованием смеси реальных и синтетических данных [18, 43].Для печатных документов и книг нет разницы между синтетическими и реальными данными, и существует множество способов построения модели Generalized OCR. Но для задач распознавания текста в диких изображениях, таких как уличные знаки, разрыв между синтетическим рендерингом текста и реальными изображениями слишком велик. Поэтому большинство существующих методов OCR не могут быть обобщены и требуют большого количества меток.

Предлагаемый нами алгоритм решает эту проблему, не требуя новых человеческих меток. Вместо этого нам нужно только использовать некоторый синтетический набор данных и другой существующий набор данных на несвязанном языке, чтобы добиться распознавания нового языка.

Наши эксперименты показывают, что добавление другого языка к обучению может уменьшить потребность в более реалистичных синтетических данных. «Нейронная сеть изучает первый язык из синтетических данных»содержание«учась на реальных изображениях на втором языке»стиль"Мы использовали иврит в качестве нашего целевого языка и французский в качестве нашего существующего набора данных, чтобы проиллюстрировать эффективность этого подхода. Мы намеренно сделали синтетические данные относительно экономными, чтобы подчеркнуть, что система не будет использовать синтетические данные для изучения чего-либо в стиле, и потому что мы считаем, что чем менее сложны синтетические данные, тем практичнее наши алгоритмы.

Интересно, что даже несмотря на то, что иврит (арамейский язык) не имеет тех же глифов или символов, что и французский (латинский язык), происходит важное обучение. Следовательно, в нашем алгоритме нет встроенных лингвистических свойств: теоретически французского набора данных должно быть достаточно для обучения системы на любом языке без какой-либо ручной маркировки.

Наконец, чтобы гарантировать воспроизводимость наших данных, мы представляем и публикуем наборы данных «Уличные знаки на иврите» (HSNS) и «Синтетические уличные знаки на иврите» (SynHSNS), на которых мы проводим все эксперименты.

Рисунок 1: Мы попытались использовать только комбинацию синтетических данных на том же языке (иврит) и помеченных реальных данных на совершенно другом языке (например, французском) без использования каких-либо помеченных обучающих данных, преобразованных в язык (иврит) с реальными изображениями. . Синтетический набор данных на иврите и реальные данные на иврите перекрываются по содержанию, а набор данных на французском языке перекрывается по стилю, но не по содержанию. Таким образом, источники дополняют друг друга, хотя и мало пересекаются друг с другом, но четко охватывают цель.

2. Связанная работа

2.1 Адаптация домена

В области компьютерного зрения было изобретено и исследовано большое количество неконтролируемых и полуконтролируемых методов адаптации доменов, особенно в области классификации изображений [29, 26, 25, 24, 23, 14]. применимых к другим областям [47, 27, 16], а также к распознаванию состава объекта [2] и обнаружению объекта [4, 17], во всех случаях цель этих методов состоит в том, чтобы сделать распределение исходной области и распределение сопоставления целевого домена (редактор: необходимо сопоставить данные исходного и целевого доменов с разными распределениями в пространстве признаков, чтобы расстояние в пространстве было как можно ближе).

В некоторых случаях это достигается явным сопоставлением моментов двух распределений. Например, максимальное среднее расхождение (MMD) — это функция потерь, которая вычисляет норму, минимизирующую разницу между средними значениями двух распределений, и хорошо работает в [37, 20, 3]. Кроме того, в работах [31], [32] были получены хорошие результаты по моментам второго порядка их исходной и целевой областей.

Помимо метода явного сопоставления моментов, существует еще один метод, который называется Gradient Reversa (Gradient Reversa,),стала мощной парадигмой глубокой адаптации домена, играя фундаментальную роль во многих системах глубокой адаптации домена [3, 4, 16].Он даже эффективно используется для задач, полностью выходящих за рамки компьютерного зрения, таких как машинный перевод [8]. существуетВ настройке глубокая сеть связана с ветвью дискриминатора, которая использует глубокие функции для классификации образцов из исходного или целевого доменов. Сеть одновременно обучает экстрактор признаков обманывать дискриминатор, меняя знак потери градиента дискриминатора относительно экстрактора признаков.

Другой тесно связанной парадигмой глубокой адаптации предметной области является использование методов состязательного обучения для минимизации переходов предметной области [36, 15, 2, 26, 27]. Эти методы очень похожи на GAN и также могут использовать дискриминатор для объединения двух распределений функций.

Адаптация домена также используется для различных задач, связанных с текстом, в компьютерном зрении. Например, методы адаптации домена использовались для идентификации шрифтов в изображениях [42, 41]. Адаптация предметной области также применялась к задачам обработки естественного языка [6, 11, 5] — области, связанной с OCR в языковом моделировании и последовательной обработке.

Есть также некоторые проблемы адаптации стиля для языка или компьютерного зрения, хотя ни одна из них не применялась для распознавания последовательности в дикой природе, и, наконец, существуют различные методы обучения систем с неполными данными. Например [7], использование данных из других языков для машинного перевода [48] путем дополнения существующих данных для повышения производительности.

2.2 Оптическое распознавание символов

Оптическое распознавание символов (OCR) — это задача распознавания строки символов на изображении, и современные методы OCR, основанные на глубоком обучении, обычно используют систему, которая сначала извлекает признаки с помощью сверточных нейронных сетей [18], а затем извлекает их при последующем декодировании. слои Текст [30, 43]. В частности, [43] использует первые несколько уровней архитектуры InceptionV3 [34] для извлечения признаков, которые затем передаются в LSTM для создания транскрипций.

Адаптация домена также применялась в области последовательного оптического распознавания символов. Когда целевая область содержит большие корпуса (например, книги), тонкая настройка моделей распределения Гаусса может быть достигнута с помощью стилистической и лингвистической согласованности с использованием критериев MAP максимального правдоподобия или максимизирующих ожиданий [28, 39]. Это также похоже на адаптацию говорящего с использованием модели НММ, не зависящей от говорящего [10]. В недавних исследованиях [46, 40] разделение стиля и содержания эффективно улучшило распознавание цифр от наборов данных MNIST до SVHN.

Наконец, отметим, что хотя многие из вышеперечисленных задач классификации изображений демонстрируют свою эффективность на наборах данных MNIST [19] и SVHN [22], важно подчеркнуть, что эта задача, хотя и относится к категории OCR, более эффективна, чем общая задача проще последовательного оптического распознавания текста. И MNIST, и SVHN классифицируют одиночные цифры, тогда как изображение, которое нас интересует, должно распознавать и классифицировать последовательности символов переменной длины в правильном порядке. Следовательно, важно напрямую применять методы адаптации предметной области, рассмотренные выше, к последовательным задачам OCR. Например, наша система для выполнения адаптации домена содержит дополнительные рекуррентные нейронные сети (RNN) и части механизма внимания, которых нет ни в одной из рассмотренных выше непоследовательных архитектур OCR.

3. Метод

Мы пытаемся разработать систему, которая может транскрибировать язык из реальных изображений, для которых не существует реальных размеченных данных. С этой целью мы подходим к проблеме с двух разных сторон одновременно, используя два разных набора данных, чтобы сосредоточиться на изображении данных.стильисодержаниепроблема. В частности, мы используем неконтролируемую адаптацию предметной области для передачи знаний о том, что изучено в синтетических данных (сам язык), и в то же время используем простую схему многозадачного обучения, чтобы сделать систему устойчивой к стилю реальных изображений.

Мы различаем три набора изображений, доступных во время обучения. Первый набор исходных изображений — это набор данных «контент»., представляет собой образ, синтезированный на определенном языке,, представляющий связанную метку, где, представляют собой последовательности целых чисел в алфавите, в частности, мы обычно будемназываетсяили источник контента. Точно так же второе исходное изображение, и ярлыкНабор данных стиля представления; изображения реальных изображений на других языках и текст меток используют разные алфавиты.

В частности, мы используемПредставление французского, любого другого языка, даже глифов, работает с нашим подходом. мы будемв виде- "источник стиля", мы также используемдля адаптации домена,для многозадачного обучения.

Третий домен, целевой домен T, содержит только изображения,иИзображения на том же языке и являются реальными фотографиями, а не синтетикой, также использованнойалфавит. Ключевой особенностью этой установки является предположение, что домен находится между T ииПередача не большая.иМежду ними очень мало общего, чтобы они не пересекались по содержанию и стилю.

3.1 Основной алгоритм

Мы проводим эксперименты, расширяя структуру алгоритма, введенную в [43]. На высоком уровне архитектура состоит из трех компонентов: CNN как средство извлечения признаков.; RNN, которая обрабатывает извлеченные визуальные признаки для циклического вывода символов; механизм пространственного внимания, который направляет компоненты RNN, чтобы сосредоточиться на существенных признаках, которые мы вводим в сеть RNN для простоты обсуждениясередина.

Рисунок 2: Архитектура базовой линии, см. [43], экстрактор признаков.для извлечения функций, в данном случае для контента, эти функции передаются в декодер RNN., декодер включает компонент пространственного внимания

Затем мы используем первые несколько слоев архитектуры Inception V3 CNN в качестве средства извлечения визуальных признаков., это отображение является полной операцией свертки, мы берем выходные признаки как,этопараметры, мы обозначаем RNN и часть пространственного внимания внимания как, (архитектуру см. на рис. 2).

Точнее, для расчета, на конкретном шаге t нам сначала нужно рассчитать маску пространственного внимания для визуального признака f,, затем вычислить вектор контекста

(1)

Затем подайте в RNN

(2)

випредставляет внутреннее состояние и выходные данные RNN в момент времени t, и- это первая буква предыдущего письма, либо из фактической ситуации во время обучения, либо из прогноза во время вывода.

Наконец, мы вычисляем распределение букв как

(3)

и указать

(4)

3.2 Адаптация стиля

Чтобы изучить «стиль» реальных изображений, мы использовали простой многозадачный шаг обучения для обучения простой сети, которая могла бы изучить задачи синтеза транскрипции и иврита и реального французского языка, Цель состоит в том, чтобы лучше транскрибировать реальные изображения на иврите, используя стилистическое совпадение между реальными французскими и еврейскими данными. В частности, мы обучаем одного, приезжайте из настоящих французских дорожных знаков, и синтетические уличные символы на ивритеИзвлеченные функции, см. рисунок 3 слева. выходные характеристики

затем подаются в два разных компонента внимания RNNсередина,генерировать два набора выходных данныхвдапараметр. Потом. Затем мы можем обучить два набора наборов данных в соответствии с их кросс-энтропией:

(5)

На практике мы фактически распространяем эти потери на авторегрессию, как описано в [33], при выполнении обучения мы передаем метки истинности как историю.

для учебы, система должна научиться игнорировать реальный стиль французских изображений и сосредоточиться на содержании; стиль настоящих французских изображений такой же, как иСтили изображений сильно перекрываются, и мы предполагаем, что система также учится игнорировать реалистичный стиль целевого изображения, даже если она может учиться на синтетическом изображении.Содержание обучения

3.3 Адаптация контента

Хотя система, описанная в разделе 3.2, по-прежнему изучает содержание иврита из синтетических данных, она специально не применяет исходный домен.и целевой домен T; на самом деле он вообще не использует T в обучении. Чтобы решить эту проблему, мы используем метод неконтролируемой адаптации домена, чтобы явно адаптировать синтетические данные на иврите к реальным данным.

3.3.1 Инверсия градиента

Мы стремимся улучшить нашу производительность в целевом домене, напрямую обучая нашу систему надежности перевода домена между синтетическими и реальными данными на иврите. В частности, мы хотим уменьшить разницу между исходным и целевым дистрибутивами. С этой целью Бен-Дэвид и др. [1] показали, что h-дивергенция целевого домена Y и исходного домена S может быть рассчитана как

(6)

впредставляет собой набор бинарных категорий, который присваивает 1 образцу в исходном домене и 0 образцу в целевом домене.Эмпирическая классификация исходных и целевых доменов неверна. Таким образом, мы можем сделать расстояние между двумя доменамиМинимальная, максимальная ошибка классификации классификатора, который различает два домена

Ганин и др. [9] достигают этого с помощью метода, называемого обращением градиента (GR). Здесь обучение оформлено как проблема седловой точки, а система разделена на три части. функция f используется экстрактором функцийизвлечение, которое затем передается в ветвь классификатора для конкретной задачи, и ветвь дискриминанта домена,Попытаемся классифицировать все образцы из исходного или целевого домена, используя следующую функцию потерь:

(7)

По сутиявляется классификатором, принадлежащим вышеупомянутому классу гипотез H.

Поэтому, учитывая функцию потерь(например, кросс-энтропия), мы можем определить функцию энергии

(8)

где di — метка домена, равная 1, если,, λ — это гиперпараметр, цель которого — контролировать компромисс между двумя потерями,является седловой точкой, которую необходимо минимизировать:

(9)

Градиентная инверсия представляет собой простой метод оптимизации задач с седловой точкой с использованием стохастического градиентного спуска. Для достижения этого шага виМежду ними находится специальный слой инверсии градиента (GPL). Чтобы продолжить обучение, GRL выполняет отображение идентичности, а в обратном проходе GRL умножает свой градиент на -1. эффективно будет, заменяется -, цель достижения седловой точки (8) может быть достигнута.

3.3.2 Адаптивный декодер

Простой способ применить технику инверсии градиента к архитектуре, описанной в разделе 3.1, заключается в следующем.иметь дело с нами в разделе 3.3.1То же: как простой классификатор, действующий наизвлеченные черты. С точки зрения непрофессионала, интуитивно мы будем настраивать визуальные функции, чтобы сделать их более устойчивыми к изменениям между реальными и синтетическими стилями.

Рисунок 3: Слева показана конфигурация сети для многозадачного обучения. Тот же экстрактор функций, Gf, используется для извлечения данных из предметной области.и поля стилейфункции извлекаются из , которые затем передаются в два отдельных декодера RNN.. Справа мы агрегируем значения RNN по, и в том, как методы градиентной инверсии используются в классификаторе домена, который отличает S от целевого домена T, и методы адаптации домена используются в декодере RNN, у нас нет никакихвнесены коррективы.

Тем не менее, мы изучили несколько архитектур, используя этот подход, и экспериментально обнаружили, что основное преимущество адаптации предметной области заключается в ее способности улучшать понимание контента, при этом почти не улучшая ее способность создавать надежные стили. Исходя из этого предположения, имеет больше смысла выполнять адаптацию предметной области в той части сети RNN, которая имеет дело со структурой языка.

Поэтому мы вводим метод, который напрямую адаптирует компоненты RNN системы, см. рис. 3. В частности, мы сохраняемпрактически не меняется, но для каждого шага RNN t мы вводим новое значение:

(10)

— внутреннее состояние RNN, представленное в уравнении (2). Мы экспериментально обнаружили, что использование max-min для агрегирования выходных данных RNN имеет решающее значение, поскольку усреднение или агрегирование на основе внимания с использованием softmax не дает лучшей системы, чем базовая.

Затем используйте дискриминатор домена на выходе, мы вычисляем его как:

(11)

— это все параметры, которые сеть должна изучить.

мы можем определитьпредставляет собой уравнение (7), то наша конечная функция энергии имеет вид:

(12)

Такая модификация необходима, потому что однаждыКроме того, он может выполнять адаптацию для частей сети, которые напрямую не дополнены дополнительными данными. В сочетании с многозадачным обучением наша конечная энергетическая функция становится:

(13)

На каждом этапе обучения мы оптимизируем потери из трех частей для каждой тренировочной партии. Полная архитектура неконтролируемой адаптации домена со всеми компонентами и примененная к декодеру показана на рисунке 3. Во время обучения λ = 0,5, значение, которое мы определили экспериментально.

4. Эксперимент

Предлагаемая нами настройка уникальна и очень специфична, поэтому для ее правильной оценки мы вводим два новых набора данных, содержащих реальные и синтетические изображения знаков с названиями улиц на иврите. В сочетании с существующим набором данных названий улиц FSNS(fa) мы демонстрируем эффективность нашего метода адаптации домена и простой многозадачный подход к обучению. Затем мы демонстрируем, что использование обоих методов вместе превосходит использование одного метода, и предоставляем подробный эмпирический анализ наших результатов.

Таблица 1: Точность полной последовательности различных систем, обсуждаемых в этой статье, для тестовых данных для каждого набора данных. Флажки проверки указывают, какие наборы данных доступны во время обучения для каждого эксперимента. Наиболее важным результатом точности является HSNS (набор данных на иврите), целевой набор данных для нашей системы. Мы также сообщаем о наборах данных SynHSNS и FSNS, хотя оптимизация производительности этих наборов данных не является целью нашей системы. Тем не менее тот факт, что результаты показывают, что наша система не полностью снижает производительность этих наборов данных, полезен для построения более общей системы.

Рисунок 4: Простые изображения наборов данных HSNS (вверху), synHSNS (в центре) и FSNS (внизу)

Далее, метрикой для всех методов, о которых мы сообщаем, является точность полной последовательности, и выборка считается правильно классифицированной только в том случае, если каждый символ в выборке правильно предсказан.

К сожалению, в отсутствие альтернативных методов надежной оптимизации гиперпараметров мы следуем [3] и проводим эксперименты непосредственно на небольшом наборе проверочных данных. Мы знаем, что это не оптимально, так сказать, любые размеченные данные, доступные во время обучения, должны использоваться во время обучения. Поэтому мы надеемся, что в будущем исследовательское сообщество предложит альтернативный метод проверки неконтролируемых схем адаптации домена. На данный момент мы оставляем разработку этой метрики для будущей работы.

4.1 Набор данных

4.1.1 Таблички с названиями улиц на иврите

Это наш целевой набор данных, мы собрали около 92 000 обрезанных изображений дорожных знаков на иврите из Израиля. Мы делим его на три части: 89 936 обучающих изображений, 899 проверочных изображений и 903 тестовых изображения, из которых помечены только проверочные и тестовые изображения. При разделении набора данных мы сохраняем географическое расстояние не менее 100 метров между любыми местами обучения/проверки и тестовыми изображениями, чтобы гарантировать, что система не подвергается воздействию каких-либо тестовых ориентиров во время обучения или выполнения проверки. Все фотографии имеют разрешение 150*150.

Многие дорожные знаки на иврите имеют определенные префиксы, которые можно перевести в такие слова, как «улица», «дорога», «проспект» и так далее. Зачастую эти слова набраны гораздо меньшим шрифтом, чем остальная часть логотипа, что делает их неразборчивыми при разрешении 150x150. Поскольку многие израильские картографические сервисы не включают эти префиксы, мы также решили исключить их из транскрипции.

Мы опубликуем эти данные в виде набора данных «Названия дорожных знаков на иврите» (HSNS). Образец из этого набора данных можно увидеть на рисунке 4. Хотя эти изображения представлены в полном цвете RGB и будут опубликованы в полном цвете RGB, во всех последующих тестах мы конвертируем каждое изображение в оттенки серого для обеспечения согласованности с нашим составным изображением, которое мы будем использовать в разделе «Описано ниже».

4.1.2 Синтезированные знаки имен на иврите

Мы решили использовать относительно простую схему для генерации синтетических данных. Это решение было принято отчасти потому, что сложно генерировать более сложные, более естественно выглядящие синтетические данные, а отчасти потому, что было замечено, что синтетические данные должны содержать только то же содержимое, что и целевые данные, потому что мы можем использовать другие методы. для обработки стилей.

Таким образом, наше составное изображение содержит только простой рендеринг текста, блок за текстом, преобразование перспективы и небольшое размытие. При рендеринге текста мы случайным образом выбираем один из 19 различных шрифтов иврита. В некоторых случаях мы случайным образом добавляем английский текст или числа ниже или выше иврита и не включаем транскрипцию реальных ситуаций. Размер и положение текста, параметры преобразования перспективы и степень размытия выбираются случайным образом. Сам текст был выбран из списка реальных израильских названий улиц. Чтобы лучше соответствовать распределению текста HSNS, мы также случайным образом добавили небольшой префикс шрифта, который можно перевести на иврит для обозначения улицы, дороги, проспекта и т. д. Мы обнаружили, что эти префиксы имеют решающее значение для производительности, поскольку они часто включаются в реальные изображения, но часто слишком малы для чтения, и мы включили их в сигналы синтетических данных, чтобы сообщить системе, что они не нуждаются в транскрипции. Мы генерируем все изображения в разрешении 150x150.

Чтобы еще больше упростить процесс генерации текста, все синтетические изображения создаются в оттенках серого. Это значительно упрощает процесс генерации, облегчая создание изображений в истинном цветовом диапазоне. Цвет каждого изображения выбирался случайным образом, хотя мы добились минимального контраста между текстом и блоком позади него. Мы используемсплошной цветВ качестве фона, поскольку предварительные тесты с использованием более сложных фонов, таких как гауссов шум, не дали никакой разницы в производительности.

Мы создаем около 430 000 синтетических изображений для обучения и 10 000 для оценки и тестирования (см. рис. 4). Мы публикуем эти данные вместе с HSNS в виде синтетического набора данных символов названий улиц на иврите (SynHSNS).

4.1.3 Сигналы французских названий улиц

В дополнение к двум вышеупомянутым наборам данных на иврите мы также используем существующий набор данных French Street Name Notation (FSNS) [30] для многозадачного обучения. FSNS содержит около 1 млн обучающих образцов французских названий улиц, 20 000 оценочных образцов и 16 000 тестовых образцов, каждый из которых содержит от 1 до 4 изображений одного и того же логотипа в разрешении 150×150. Чтобы соответствовать HSNS и SynHSNS, мы используем только одно из этих представлений во время обучения, мы берем представление, указанное первым. Опять же, мы поддерживаем согласованность с синхронизированными изображениями, преобразуя каждое изображение в оттенки серого. Образцы изображений из исходного набора данных FSNS показаны на рисунке 4.

4.2 Детали реализации

За исключением экспериментов по тонкой настройке, описанных в разделе 4.3.2, все обучение выполнялось со скоростью обучения 0,0047 с использованием стохастического градиентного спуска со значением импульса 0,75. Для каждого домена, фактически используемого при обучении, мы обучаем 800 000 шагов с размером пакета 15. При использовании компонентов адаптации домена мы включаем их с шага 20 000 и вычисляем потери в уравнениях 12 и 13, λ = 0,5, Разрешение всех входных изображений составляет 150 * 150, что отличается от разрешения данных трех наборов данных. то же.

4.3 Адаптация предметной области и совместное обучение

4.3.1 Baselines

Чтобы продемонстрировать эффективность нашей системы, нам нужно показать, что наш метод работает лучше, чем наивный метод. Поэтому мы определяем базовый уровень HSNS как производительность теста в системе, обученной исключительно на данных SynHSNS. Результаты этого эксперимента представлены в таблице 1 как «базовые».

Таблица 1 также включает для справки производительность системы, специально обученной на версии FSNS, используемой во всех экспериментах, указанной как «базовый уровень FSNS». Как упоминалось выше, наше использование FSNS отличается от стандартного использования, потому что мы используем только одно из четырех возможных представлений для каждого символа, и мы удалили все цвета из изображения. Поэтому, хотя количество FSNS, о которых мы сообщаем здесь, меньше, чем количество, о котором сообщается в системе [43], важно отметить, что два эксперимента не проводились на одних и тех же данных. Мы также хотели бы подчеркнуть, что наша цель — оптимизировать производительность не на FSNS, а на HSNS, поэтому эти цифры приведены только для справки.

4.3.2 Многозадачное обучение

Мы сообщаем о результатах многозадачной схемы обучения, описанной в разделе 3.2, где мы одновременно тренируемся на наборах данных SynHSNS и FSNS.

Мы сообщаем об этом как «Многозадачное обучение (МТ)» в таблице 1. Как и в случае с базовыми уровнями выше, данные HSNS не были получены во время обучения, но мы все же достигли точности 36,54% на тестовом наборе HSNS. Таким образом, просто научившись анализировать настоящие французские изображения, модель улучшилась на 18 пунктов при анализе реальных изображений на иврите, что подтверждает нашу гипотезу о том, что система может улучшить понимание истинного стиля данных на иврите.

В дополнение к схеме совместного обучения, описанной выше, мы также оцениваем наш метод на простой схеме тонкой настройки, показанной в таблице 1 как «тонкая настройка». В этой схеме мы сначала обучаем всю систему 800 000 шагов с набором данных FSNS. Затем мы используемзаменять, при сниженной скорости обучения сеть обучается на дополнительные 66 000 шагов при скорости обучения 0,002 (дополнительные шаги обучения не улучшили производительность HSNS). В таблице 1 представлены результаты производительности двух методов. Мы видим, что многозадачное обучение превосходит тонкую настройку, вероятно, потому, что дополнительный этап обучения уменьшает некоторые преимущества, полученные на первом этапе на французских данных.

4.3.3 Адаптация домена

Чтобы оценить эффективность инверсии градиента, мы снова проводим два эксперимента, оба основаны на rnn-центрической адаптации домена, описанной в разделе 3.3.2.

Рисунок 5: Примеры визуально неразличимых букв иврита.

Первый эксперимент, помеченный «Адаптация домена» в таблице 1, сеть RNN.Часть использования методов адаптации домена с использованием только HSNS и SynHSNS в качестве входных данных для явной оптимизации потерь в уравнении 12,Структура алгоритма показана на рисунке 3 (справа), а вход FSNS удален.

Наш второй эксперимент, обозначенный как «DA+MT», использует все три набора данных в качестве входных данных и представляет собой проверку всей системы, как показано на рисунке 3 (справа). Этот эксперимент выделяется тем, что он единственный, в котором используются все три доступных набора данных.

Из этих экспериментов мы видим, что использования только адаптации домена между HSNS и SynHSNS достаточно для повышения производительности с 18,49% до 38,64%. Что еще более интересно, сочетание этого с многозадачным обучением повышает производительность на 50,16%. В частности, незначительное увеличение от DA к DA+MT (около 11 %). Аналогичным образом, рост от MT до DA+MT (около 14%) весьма значителен.

Мы считаем, что это подтверждает нашу гипотезу о том, что адаптация предметной области нацелена на содержание, а многозадачное обучение нацелено на стиль, поскольку предполагает, что улучшения, обеспечиваемые каждым методом, в основном не связаны, т. е. адаптация предметной области и многозадачное обучение помогают по разным причинам. Если эти методы не дополняют друг друга, DA и «MT» улучшают производительность за счет обработки одних и тех же характеристик цели, тогда мы можем увидеть меньшие предельные улучшения при их совместном использовании, поскольку это будет означать, что оба метода во многом перекрываются.

4.3.4 Анализ ошибок

Еврейский алфавит представляет собой сложный набор символов: в нем есть несколько символов, которые трудно различить как людям (неподготовленным или не говорящим на иврите), так и компьютерам, как показано на рис. 5. Есть еще несколько символов, но они составляют 22,7% (1596/7013) проверочного набора всех печатных символов. Интересно, что все конфигурации моделей смешивают эти символы, и точность этих моделей не сильно меняется для этих запутанных символов (например, модель MT рассматривает VAV как YOD 40/894 раза, «MT+DA» — 41/894 раза).

Еще одно интересное наблюдение заключается в том, что сеть учится представлять характеристики пробельных символов, в частности нулевой символ (завершающая последовательность) и пробел. В таблице 6 показаны значки уменьшения размерности для встраивания символов с помощью t-SNE. Мы наблюдаем, что кластеры, созданные символами NULL и SPACE, более отделены от других по мере повышения производительности сети. Мы также заметили эту путаницу, глядя на показатели производительности: «MT» классифицировал пробелы как NULL 88/620 раз, в то время как «MT+DA» делал эту ошибку только 45/620 раз. Мы считаем, что это явление можно объяснить, взглянув на область вокруг персонажей.

Мы утверждаем, что с точки зрения внешнего вида основное различие между синтетическими и естественными изображениями заключается в стиле областей без символов. При резком кадрировании не будет большой разницы между реальным изображением и синтезированным изображением, но наша модель работает в большой среде, где области вокруг текста могут слишком отвлекать внимание модели и их нельзя легко игнорировать. Области без символов напрямую обрабатываются как области, где есть NULL и пробелы.

Рисунок 6: Визуализация прогнозов отдельных признаков в сети с использованием только многозадачного обучения (слева) и с использованием многозадачности и DA (справа). Число относится к набору отдельных символов еврейского алфавита. Верхняя красная точка соответствует символу пробела, а нижняя красная точка соответствует символу NULL (конец последовательности).

5. Заключение

В этой статье мы исследуем различные подходы, позволяющие системе выполнять последовательное распознавание текста на фотографиях вывесок с названиями улиц на немаркированных языках. С этой целью мы вводим два новых набора данных: набор данных SynHSNS с синтетическими дорожными знаками на иврите и набор данных HSNS с реальными немаркированными дорожными знаками на иврите. Наконец, мы демонстрируем, что наш метод, который использует как существующие данные на других языках, так и легко генерируемые синтетические данные на том же языке, может значительно повысить производительность в целевой области за счет передачи информации о стиле и содержании.

использованная литература

[1] S. Ben-David, J. Blitzer, K. Crammer, A. Kulesza, F. Pereira, and J. W. Vaughan. A theory of learning from different domains. Machine Learning, 2010. 4

[2] Бусмалис К., Зильберман Н., Дохан Д., Эрхан Д., Кришнан Д. Неконтролируемая адаптация домена на уровне пикселей с генеративно-состязательными сетями, Конференция IEEE 2017 г. по компьютерному зрению и распознаванию образов (CVPR), стр. 95–104, июль 2017 г. 2

[3] Бусмалис К., Тригеоргис Г., Зильберман Н., Кришнан Д., Эрхан Д. Сети с разделением доменов В Д. Д. Ли, М. Сугияма, У. В. Люксбург, И. Гайон и Р. Гарнетт, редакторы, Достижения в системах обработки нейронной информации 29, страницы 343–351, Curran Associates, Inc., 2016. 2, 6

[4] Y. Chen,W. Li, C. Sakaridis, D. Dai, and L. V. Gool. Domain adaptive faster r-cnn for object detection in the wild. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 2

[5] C. Chu and R. Wang. A survey of domain adaptation for neural machine translation. In Proceedings of the

27-я Международная конференция по компьютерной лингвистике, стр. 1304–1319. Ассоциация компьютерной лингвистики, 2018 г. 2

[6] Х. Дауме III. Разочаровывающе простая адаптация домена. В материалах 45-го ежегодного собрания Ассоциации компьютерной лингвистики, стр. 256–263. Ассоциация компьютерной лингвистики, 2007. 2

[7] M. Fadaee, A. Bisazza, and C. Monz. Data augmentation for low-resource neural machine translation. In ACL, 2017. 2

[8] Ю. Ганин, В. Лемпицкий, Неконтролируемая адаптация домена путем обратного распространения, Материалы 32-й Международной конференции по машинному обучению — Том 37, ICML’15, стр. 1180–1189, JMLR.org, 2015. 2

[9] Ю. Ганин, Э. Устинова, Х. Аджакан, П. Жермен, Х. Ларошель, Ф. Лавиолетт, М. Маршан, В. Лемпицки, Предметно-состязательное обучение нейронных сетей, Дж. Мах, ЖЖ, Рез. , 17(1):2096–2030, янв. 2016. 2, 4

[10] J. . Gauvain and C.-H. Lee. Maximum a posteriori estimation for multivariate gaussian mixture observations of markov chains. IEEE Transactions on Speech and Audio Processing,

2(2):291–298, апрель 1994 г. 2

[11] Х. Глорот, А. Бордес и Ю. Бенжио, Адаптация домена для крупномасштабной классификации настроений: подход к глубокому обучению, В материалах 28-й Международной конференции на Международной конференции по машинному обучению, ICML'11, страницы 513 –520, США, 2011. Омнипресс.2

[12] Гудфеллоу И., Пуже-Абади Дж., Мирза М., Сюй Б., Варде-Фарли Д., Озаир С., Курвиль А., Бенжио Ю. Генеративные состязательные сети, В: Гахрамани З., М. Веллинг, К. Кортес, Н. Д. Лоуренс и К. К. Вайнбергер, редакторы, Достижения в системах обработки нейронной информации 27, стр. 2672–2680, Curran Associates, Inc., 2014. 2

[13] А. Греттон, А. Смола, Дж. Хуанг, М. Шмиттфулл, К. Боргвардт и Б. Шолкопф, Ковариационный сдвиг и локальное обучение путем сопоставления распределений, стр. 131–160, MIT Press, Кембридж, Массачусетс , США, 2009. 2

[14] Хойссер П., Фрерикс Т., Мордвинцев А., Кремерс Д. Адаптация ассоциативного домена, Международная конференция IEEE по компьютерному зрению (ICCV) 2017 г., страницы 2784–2792, октябрь 2017 г. 2

[15] J. Hoffman, E. Tzeng, T. Park, J.-Y. Zhu, P. Isola, K. Saenko, A. Efros, and T. Darrell. CyCADA: Cycle-consistent adversarial domain adaptation. In J. Dy and A. Krause, editors, Proceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine

Learning Research, страницы 1989–1998, Stockholmsmassan, Стокгольм, Швеция, 10–15 июля 2018 г. PMLR. 2

[16] J. Hoffman, D. Wang, F. Yu, and T. Darrell. Fcns in the wild: Pixel-level adversarial and constraint-based adaptation. CoRR, abs/1612.02649, 2016. 2

[17] N. Inoue, R. Furuta, T. Yamasaki, and K. Aizawa. Crossdomain weakly-supervised object detection through progressive domain adaptation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 2

[18] А. Крижевский, И. Суцкевер и Г. Е. Хинтон, Классификация Imagenet с помощью глубоких сверточных нейронных сетей, Ф. Перейра, CJC Берджес, Л. Боттоу и К. К. Вайнбергер, редакторы, Достижения в системах обработки нейронной информации 25, стр. 1097–1105.Curran Associates, Inc., 2012. 1, 2.

[19] Лекун Ю., Боту Л., Бенжио Ю., Хаффнер П. Градиентное обучение в применении к распознаванию документов, Труды IEEE, стр. 2278–2324, 1998. 2

[20] М. Лонг, Ю. Цао, Дж. Ван и М. И. Джордан, Изучение передаваемых функций с глубокими адаптационными сетями, В материалах 32-й Международной конференции по машинному обучению - Том 37, ICML'15, страницы 97 – 105. JMLR.org, 2015. 2

[21] A. Mohammadian, H. Aghaeinia, F. Towhidkhah, and S. Seyyedsalehi. Subject adaptation using selective style transfer mapping for detection of facial action units. Expert Systems with Applications, 56, 03 2016. 2

[22] Y. Netzer, T.Wang, A. Coates, A. Bissacco, B.Wu, and A. Y. Ng. Reading digits in natural images with unsupervised feature learning. In NIPS Workshop on Deep Learning and Unsupervised Feature Learning 2011, 2011. 2

[23] К. Сайто, Ю. Ушику и Т. Харада, Асимметричное тройное обучение для неконтролируемой адаптации домена, В D. Precup и YW Teh, редакторы, Материалы 34-й Международной конференции по машинному обучению, том 70 Трудов Исследование машинного обучения, страницы 2988–2997, Международный конференц-центр, Сидней, Австралия, 06–11 августа 2017 г. PMLR. 2

[24] K. Saito, K.Watanabe, Y. Ushiku, and T. Harada. Maximum Classifier Discrepancy for Unsupervised Domain Adaptation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 2

[25] K. Saito, S. Yamamoto, Y. Ushiku, and T. Harada. Open set domain adaptation by backpropagation. In The European Conference on Computer Vision (ECCV), September 2018. 2

[26] S. Sankaranarayanan, Y. Balaji, C. D. Castillo, and R. Chellappa. Generate to adapt: Aligning domains using generative adversarial networks. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 2

[27] S. Sankaranarayanan, Y. Balaji, A. Jain, S. Lim, and R. Chellappa. Unsupervised domain adaptation for semantic segmentation with gans. CoRR, abs/1711.06969, 2017. 2

[28] Саркар П. и Надь Г. Стилевая согласованность в изогенных паттернах, Материалы Шестой международной конференции по анализу и распознаванию документов, стр. 1169–1174, сентябрь 2001 г. 2

[29] R. Shu, H. Bui, H. Narui, and S. Ermon. A DIRT-t approach to unsupervised domain adaptation. In International Conference on Learning Representations (ICLR), 2018. 2

[30] R. Smith, C. Gu, D.-S. Lee, H. Hu, R. Unnikrishnan, J. Ibarz, S. Arnoud, and S. Lin. End-to-end interpretation of the french street name signs dataset. In ECCV Workshops, 2016. 2, 7

[31] Сунь Б., Фенг Дж., Саенко К. Возвращение удручающе простой адаптации домена, Материалы тридцатой конференции AAAI по искусственному интеллекту, AAAI’16, стр. 2058–2065, AAAI Press, 2016. 2

[32] Б. Сун и К. Саенко, Глубокий коралл: выравнивание корреляции для глубокой адаптации домена, Г. Хуа и Х. Джегоу, редакторы, Computer Vision — ECCV 2016 Workshops, страницы 443–450, Cham, 2016. Издательство Springer International 2.

[33] I. Sutskever, O. Vinyals, and Q. V. Le. Sequence to sequence learning with neural networks. 4

[34] Сегеди К., Ванхуке В., Иоффе С., Шленс Дж., Война З. Переосмысление начальной архитектуры компьютерного зрения, Конференция IEEE 2016 г. по компьютерному зрению и распознаванию образов (CVPR), страницы 2818–2826, 2016. 2, 3

[35] Томас К. и Ковашка А. Распознавание художественных объектов путем адаптации стиля без учителя В CV Jawahar, H. Li, G. Mori и K. Schindler, редакторы, Computer Vision — ACCV 2018, стр. 460–476, Cham , 2019. Издательство Springer International 2.

[36] Э. Ценг, Дж. Хоффман, К. Саенко и Т. Даррелл, Состязательная дискриминационная адаптация домена, Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR), 2017 г., стр. 2962–2971, 2017 г. 2

[37] E. Tzeng, J. Hoffman, N. Zhang, K. Saenko, and T. Darrell. Deep domain confusion: Maximizing for domain invariance. CoRR, abs/1412.3474, 2014. 2

[38] L. van der Maaten and G. E. Hinton. Visualizing data using t-sne. 2008. 8

[39] С. Верамачанени и Г. Надь, Адаптивные классификаторы для распознавания нескольких источников, Анализ и распознавание документов, 6(3):154–166, март 2003 г. 2

[40] R. Volpi, P. Morerio, S. Savarese, and V. Murino. Adversarial feature augmentation for unsupervised domain adaptation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 2

[41] Z. Wang, J. Yang, H. Jin, E. Shechtman, A. Agarwala, J. Brandt, and T. S. Huang. Real-world font recognition using deep network and domain adaptation. CoRR, abs/1504.00028, 2015. 2

[42] Z. Wang, J. Yang, H. Jin, E. Shechtman, J. B. Aseem Agarwala, and T. S. Huang. Decomposition-based domain adaptation for real-world font recognition. 2

[43] З. Война, А. Н. Горбань, Д.-С. Ли, К. Мерфи, К. Ю, Ю. Ли, Дж. Ибарз Извлечение структурированной информации из изображений улиц на основе внимания, 2017 14th IAPR International Конференция по анализу и распознаванию документов (ICDAR), 01:844–850, 2017 г. 1, 2, 3, 6, 7

[44] Z. Yang, Z. Hu, C. Dyer, EP Xing, and T. Berg-Kirkpatrick. Неконтролируемая передача стиля текста с использованием языковых моделей в качестве дискриминаторов. In S. Bengio, H. Wallach, H. Larochelle, K. Грауман, Н. Чеза-Бьянки и Р. Гарнетт, редакторы, Достижения в системах обработки нейронной информации 31, стр. 7287–7298, Curran Associates, Inc., 2018. 2

[45] X.-Y. Zhang и C.-L. Liu. Адаптация писателя с отображением переноса стиля. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35:1773–1787, 2013. 2

[46] Y. Zhang, W. Cai, and Y. Zhang. Separating style and content for generalized style transfer. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 2

[47] Y. Zhang, P. David, and B. Gong. Curriculum domain adaptation for semantic segmentation of urban scenes. In The IEEE International Conference on Computer Vision (ICCV), Oct 2017. 2

[48] Зоф Б., Юрет Д., Мэй Дж., Найт К. Передача обучения для малоресурсного нейронного машинного перевода, страницы 1568–1575, 01 2016. 2