Технология компьютерного зрения в AutoNavi POI Data Production

искусственный интеллект

​Предисловие: Снова весенний призывной сезон! Бизнес AutoNavi как платформы туристических услуг национального уровня быстро развивается, и открыто большое количество мест для трудоустройства в школах / социальных сетях. Вы можете отправить свое резюме. Подробности см. В конце статьи. Чтобы помочь вам лучше понять технологию AutoNavi, мы запланировали **#Spring Recruitment Column#Серия статей, организованная студентами старших курсов различных бизнес-команд дляБизнес-наука + практика применения технологий** — это основное содержание, которое даст вам актуальное введение.

Эта статья является первой из серии #Колонка весеннего набора#3статьи, согласноБазовый отдел исследований и разработок Технологического центра AutoNavi VisionСодержание «Практики визуальных технологий в автоматическом создании имен POI», которым поделился ответственный человек Хао Чжихуэй на технологическом форуме AT, было систематизировано и было немного сокращено, не затрагивая первоначального смысла.

**AT Technology Forum (Amap Technology Tribune)** – это мероприятие по обмену техническими данными, инициированное AutoNavi. Каждый выпуск посвящен определенной теме. Мы будем приглашать экспертов как внутри, так и за пределами Alibaba Group для выступлений, контроля качества и открытых дискуссий. Технология Обмен.

Команда Хао Чжихуэй использует множество технологий компьютерного зрения: в том числе обнаружение целей, распознавание, сегментацию, геометрическую реконструкцию, визуальное позиционирование и так далее.

Сбор данных POI Gaode

AutoNavi содержит более 70 миллионов данных о POI (точках интереса). Каждый год будет появляться много новых POI, а некоторые POI перестанут работать и закроются. **Как создаются и обновляются эти POI? **С точки зрения методов сбора информации существует много способов получения POI.Существует важный и интуитивно понятный метод сбора.AutoNavi собирает изображения уличных магазинов с помощью краудсорсинга и использует технологию компьютерного зрения (и помощь человека) для извлечения изображений из изображения Данные POI.

На рисунке ниже показан процесс приобретения с помощью краудсорсинга. Сотрудники Gaode шли по улице и делали непрерывные снимки. Наконец, загрузите изображение и GPS-координаты в Gaode.

На рисунке ниже представлена ​​схематическая диаграмма POI от сбора до производства для использования. Входными данными являются непрерывно собираемые изображения.Для производственного процесса наиболее важным является расчет содержимого и положения каждой точки интереса. Затем сопоставьте POI в родительской библиотеке, чтобы убедиться, что POI уже существует или его нужно добавить. Распознавание названия POI на изображении и вычисление координат требуют использования технологии компьютерного зрения.

В этой статье в основном представлена ​​часть имени. На самом деле AutoNavi не полностью автоматизирует создание POI, а представляет собой комбинацию человека и машины. Когда машина не может быть автоматизирована или уровень доверия низок, она передается в руки человека.

Схема процесса сбора-производства-использования данных POI AutoNavi

Богатое и красочное представление данных POI создает проблемы для автоматизированного процесса обработки, в том числе: распознавание текста, является ли это POI, взаимосвязь между текстами, как назвать (имя)…

На следующем рисунке показан пример перехода от исходного изображения к автоматически сгенерированному названию POI, включая следующиеНесколько ключевых технологий компьютерного зрения:Распознавание текста естественной сцены,Определение текстовых атрибутов и структурированная обработка,Имя генерируется автоматически

Распознавание текста естественной сцены

Проще говоря, распознавание текста заключается в том, чтобы найти текст на картинке и дать ему правильные символы. С точки зрения процесса разработки задачи распознавания текста она содержит различные подзадачи.

Во-первых, более знакомые существительныеOCR, китайский перевод естьОптическое распознавание символов. Первоначальное намерение состояло в том, чтобы использовать оптический сканер для чтения печатного текста в двоичные данные, а затем распознавать его в символы кода ASCII и выводить их.

Проблема OCR имеет давнюю историю: в 1980-х и 1990-х годах было много научных работ и коммерческих продуктов. Например, Янн Лекун, один из основоположников глубокого обучения, с которым мы знакомы, использовал нейронные сети для распознавания рукописных почтовых индексов в начале 1990-х годов, которые были коммерциализированы Bank of America.

С развитием технологии распознавания текста увеличилась и сфера ее применения. Помимо печати и рукописного ввода, можно ли распознать любую обычную картинку, содержащую текст?

На рисунке ниже вопрос в средней колонке называется рожденно-цифровым, что означает, что текст генерируется компьютером, а шрифт и расположение текста относительно фиксированы.

Столбец 3 представляет собой задачу распознавания текста для природных сцен, называемуюSTR, то есть в реальном тексте, таком как названия магазинов, уличные знаки, проблема распознавания текста такого рода, из-за угла фотографии, проблемы с освещением и проблемы с качеством изображения, следует сказать, что трудность самый большой. Это также тип, который в настоящее время более изучен в академических кругах.

Конечно, текущая технология STR столкнется со многими проблемами: включая проблемы со шрифтами, проблемы с набором текста, проблемы с несколькими языками, проблемы с освещением и проблемы с размытием, вызванные съемкой.

Текст на дверной табличке магазина будет сложнее, чем другие сцены, потому что он должен выражать свои особенности и делать вас «незабываемым», поэтому в нем больше шансов появления различных художественных слов и различных декоративных эффектов.

Кроме того, AutoNavi Maps необходимо поддерживать национальные данные POI.В разных городах его географические названия, названия магазинов и торговых марок сами по себе являются очень большим словарным запасом.

Развитие технологии STR: традиционные алгоритмы (до 2012 г.)

Во-первых, краткое введение в технологию STR.

Развитие распознавания текста естественной сцены (STR) можно условно разделить на два этапа.Взяв 2012 год за переломный год, традиционные алгоритмы обработки изображений раньше были опорой, после чего они вступили в стадию алгоритмов глубокого обучения.

До 2012 года основные алгоритмы распознавания текста основывались на традиционных методах обработки изображений и методах статистического машинного обучения. Он разделен на две части: обнаружение текстовой строки и распознавание текста.

обнаружение текстовой строки, как правило, предварительная обработка с использованием бинаризации, анализа связанных доменов, оператора области значимости MSER и других алгоритмов для обнаружения текстовых областей, извлечения кандидатов в текстовые строки, а затем удаления недействительных кандидатов посредством классификации.

распознавание текста, обычно путем разрезания, чтобы найти кандидатов на символы/слова, а затем классифицировать каждый символ/слово с помощью классификатора машинного обучения.

Традиционный метод распознавания текста может дать хорошие результаты в простых сценариях, но в разных сценариях параметры каждого модуля необходимо разрабатывать независимо. В сложных сценариях сложно настроить параметры для получения моделей с хорошими характеристиками обобщения.

Разработка технологии STR: алгоритмы глубокого обучения (после 2012 г.)

Примерно с 2012 года, как и другие проблемы компьютерного зрения, STR также вступила в стадию глубокого обучения.

Две подзадачи обнаружения текстовой строки и распознавания текста, упомянутые выше, решаются некоторыми моделями глубокого обучения. Несколько типичных рабочих мест перечислены ниже.

В крайнем левом углу — модель обнаружения текстовых строк, Textboxes++ Университета науки и технологии Хуажонг, основанная на сетевой структуре, подобной SSD, она регрессирует координаты четырех вершин четырехугольника для решения таких проблем, как соотношение сторон и вращение. .

Посередине — модель распознавания последовательности. Можно сказать, что это новый тип метода решения задач, появившийся после этапа глубокого обучения. Чтобы ввести изображение последовательности символов, традиционное решение состоит в том, чтобы разрезать его на отдельные символы или слова, а затем классифицировать их.С моделью RNN LSTM можно закодировать последовательности передних и задних признаков, а затем, введя потерю CTC , Полная модель распознавания последовательности может быть обучена.

Помимо преобразования двух звеньев обнаружения и распознавания текстовых строк в решения для глубокого обучения, есть также некоторые работы, пытающиеся интегрировать их для формирования комплексного решения. Какова цель интеграции? Нетрудно представить, что если содержание текста можно распознать, то в теории обнаружение должно быть более точным. Например, если три слова «глубокое обучение» можно распознать, это может сказать детектор через сигнал обратной связи какой-то сети, а после него должно быть слово «наученное обучение».

Третий столбец — это сквозная работа, которая соединяет более быстрые r-cnn и LSTM с одной и той же сетью и выполняет распознавание символов при классификации и координации регрессии для каждого предложения.

Технология STR от Gold

Технология AutoNavi на STR фактически разделена на две части: обнаружение строк текста и распознавание символов.

На практике «сквозная» модель не используется, потому что эта подмодульная модель упрощает оптимизацию локальных эффектов, таких как добавление сэмплов в определенный модуль или изменение модели.

В части распознавания символов видно, что Gaode использует две схемы параллельно. Верхняя ветвь — обнаружение и распознавание отдельных символов, а нижняя ветвь — распознавание всей текстовой последовательности.

Технология AutoNavi STR — обнаружение строк текста

Сначала посмотрите на обнаружение текстовой строки. В первые дни, примерно в 2017 году, для сегментации текстовых строк использовались модели семантической сегментации, такие как FCN, deeplab.

После появления Mask R-CNN в 2017 году технология сегментации экземпляров становилась все более и более зрелой, и мы обнаружили, что влияние сегментации экземпляров на проблему обнаружения строк текста также превосходит модель семантической сегментации. Самое главное, поскольку каждая строка текста должна быть идентифицирована индивидуально, сегментация экземпляров естественным образом решает эту проблему.

Семантическая сегментация требует много пост-обработки, чтобы различать разные текстовые строки.

Разумеется, помимо Mask R-CNN, мы будем использовать и другие модели сегментации экземпляров.

В практических бизнес-задачах эффект обнаружения текстовой строки AutoNavi. Является ли текстовая строка плотной или размытой, эффект обнаружения достиг высокого уровня.

Технология AutoNavi STR — распознавание текста

Для распознавания текста Gaode фактически использует две ветви: обнаружение и распознавание одного символа и распознавание последовательности. Конечным результатом распознавания является слияние выходов этих двух ветвей.

Зачем использовать две ветки?

Вы можете увидеть этот пример для «один из одного, двух, трех, четырех», одиночный символ нелегко определить точно, потому что его легко спутать с фоном.

Но поскольку он находится в середине текстовой строки, его можно распознать во всей последовательности.

Можно ли полагаться только на распознавание последовательности и удалить односимвольную ветвь? Или в чем может быть проблема? Об этом остается подумать самим ученикам.

модель распознавания последовательности

В ранней модели распознавания последовательностей в основном использовалась потеря LSTM + CTC, которая позже была заменена на LSTM со слоем внимания. Введение внимания может заставить сеть больше сосредоточиться на вводе признаков на каждом выходе временного шага, а эффект прогнозирования также лучше.

Благодаря этим методам эффект распознавания хорош для разных шрифтов, разных ориентаций и даже разных языков.

Майнинг и генерация жестких кейсов

В практической работе помимо проектирования и оптимизации модели возникает множество других задач.

Большая проблема в том, что в китайских иероглифах много иероглифов. Есть около 3000-5000 широко используемых китайских иероглифов, но символы, которые можно увидеть в POI, намного превышают это количество.

На карте Gaode 70 миллионов POI, можете себе представить, какое это будет число.

У нас есть несколько различных решений этой проблемы. Например, вы можете найти интересные символы из названия POI, найти и собрать картинки, а затем сдать их на ручную аннотацию. Вы также можете синтезировать некоторые образцы через библиотеку шрифтов компьютера, а также некоторые эффекты рендеринга.

AutoNavi начала разрабатывать технологию распознавания текста примерно в 2016 году и до сих пор оптимизирует ее. Чтобы проверить технические возможности, команда AutoNavi Vision Technology также приняла участие в некоторых соревнованиях. Относительно крупным соревнованием в области OCR является ICDAR, и AutoNavi участвовала в соревнованиях по позиционированию строк текста и распознаванию символов в 2017 и 2019 годах, а также добилась хороших результатов.

Определение текстовых атрибутов и структурированная обработка

После обнаружения и распознавания текста в сцене необходимо определить, какой текст относится к названию POI. Поэтому необходимо судить об атрибутах каждой текстовой строки, в то же время несколько смежных текстовых строк часто связаны между собой, и для структурированного вывода необходимо вычислить их взаимосвязь.

Проблема определения атрибута текста

Этот вопрос является сложным. Является ли текстовая строка именем POI, зависит от ее текстового содержимого и местоположения. Возьмите приведенное выше изображение в качестве примера, просто посмотрите на «участники выходят в интернет, 2 юаня / час», вы можете догадаться, что это не имя POI. И это также «Лучший экспресс».Когда он находится на табличке над магазином, это, вероятно, будет названием POI; когда он находится на теле экспресса, это не то имя, которое мы хотим сделать.

определение атрибутов текста,Одна из самых прямых задач — шумоподавление: исключить заведомо недействительный текст POI. Gaode использовал двухканальную сверточную нейронную сеть для изображений и текстов и добился относительно очевидного эффекта шумоподавления.

Поскольку текстовую строку можно разделить на две категории: имя POI и шум, в расширении текст, связанный с именем POI, также можно разделить на несколько категорий атрибутов, включая основное имя, название филиала, сферу деятельности, контактную информацию и т. д. При создании имен POI люди будут выбирать некоторые тексты в соответствии с определенными спецификациями процесса, а также автоматически выбирать или отбрасывать и сортировать в соответствии с атрибутами этих текстов и, наконец, генерировать имена POI.

Кроме того, Гаоде также ввел семантическую сегментацию бляшек для определения независимых границ каждой бляшки. При наличии границ первичное имя уникально.

автоматическая генерация имени

Наконец, посмотрите на проблему автоматической генерации имени и ее решение.

После распознавания символов и определения атрибутов, как автоматически генерировать имена POI? Освоив процесс работы, люди могут определить правильное название магазина в соответствии с листингом (это также основная функция квалифицированного листинга). Итак, могут ли машины изучить и освоить правила именования, чтобы генерировать имена на основе списков?

В реальном мире сложность этой задачи не низкая. Возьмем в качестве примера бренд ниже. Какое правильное название POI?

Смотрите больше примеров:

Имя автоматически сгенерированной модели

Как и выше, ввод — это несколько строк текста, а вывод — метки этих строк текста (независимо от того, были ли они выбраны как часть окончательного имени) и порядок. Если информация об изображении не учитывается, это проблема НЛП. Модель BERT можно использовать для обучения. Проблема определяется как проблема обучения с двумя задачами, включая задачу классификации и задачу регрессии.

Информация об изображении также добавляется в модель. Входные данные представляют собой ограничивающую рамку всех текстовых строк, закодированных как функции с использованием сети графического внимания и подключенных к функциям модели BERT. Наконец, способность к обучению модели улучшается.

Кроме того, вдохновленный работой Microsoft, Голд также использовал модель VL-Bert. В конечном итоге качество генерации имен было улучшено до 95%.

Вот некоторые эффекты автоматической генерации имени. В первых 3-х примерах модель относительно хорошо усваивает правила генерации имени, несмотря на разную типографику.

Конечно, как и в плохом случае, показанном на рисунке, когда расположение листинга не является общим, предсказание модели будет проблематичным. Это также направление оптимизации позже.

О команде AutoNavi Vision

Состоящая из выдающихся ученых и инженеров, работающих в Сиэтле, Силиконовой долине, Пекине и других местах, она является основной командой алгоритмов визуализации карт AutoNavi. Решайте головоломки и исследуйте инновационные технологии для нового будущего картографии, навигации и мобильности. Охватывая такие технологии, как понимание изображений, анализ видео и объединение нескольких источников, он ориентирован на области создания карт и высокоточных карт, позиционирования, трафика и прогнозирования, навигации с дополненной реальностью, вспомогательного вождения и информационно-развлекательных систем. Это основной двигатель разработки высокоточных технологий AutoNavi Maps.