Добро пожаловать в сообщество Tencent Cloud +, чтобы получить больше обширной технической практики Tencent по галантерее ~
Эта статья написанаСалон технологий сообщества YunjiaОпубликован вКолонка «Облако + сообщество»
Докладчик: Цзи Юннань, в настоящее время старший научный сотрудник Tencent Cloud Big Data AI Product Center. Отвечает за несколько проектов искусственного интеллекта изображений, таких как Tencent Cloud и Huaxing Optoelectronics.
Сегодняшний обмен в основном является частью OCR. Поделитесь частью работы, проделанной Tencent Cloud в области OCR, а также некоторыми услугами OCR, которые Tencent Cloud в настоящее время открывает в облаке. OCR просто означает, что машина может понять написанный текст. Наш рукописный текст более сложен, и в нем есть всякое. Печатный текст немного проще, но не менее сложен. Сегодня я в основном говорю об этой сложности, о способности этой службы справляться с этими сложностями в различных ситуациях, возникающих в повседневной жизни или технике.
Вот два примера, которые были сделаны. Идентификационные карты относительно форматированы и просты, и вы можете четко знать, где найти какую текстовую информацию. Последний представляет собой отчет об инспекции больницы.Отчет об инспекции больницы относительно сложен.Его сложность заключается в том, что это не только своего рода отчет об инспекции одной больницы, но и необходимо обрабатывать единообразно для всех отчетов об инспекции разные больницы. Это добавляет много трудностей.
Прежде чем сделать официальное введение, давайте поговорим об истории OCR. История OCR уходит в далекое прошлое, и впервые оно было применено в 1960-х и 1970-х годах. Все написали письма, и почтовый индекс находится в верхнем левом углу конверта. Это самое раннее применение OCR. Эта технология используется в очень узкой сфере, требующей только стабильного и эффективного поиска и идентификации чисел, заполненных пробелами. В то время вероятность распознавания могла достигать 92%-93%. Это решает большую проблему, в то время почтовые письма доставлялись через идентификационные коды.
Этот сценарий приложения позже напрямую привел к рождению MINST в 2013 году. Все фреймворки используют его в качестве примера. Именно из этого самого раннего приложения. Некоторые производители копировальных аппаратов и сканеров, такие как Toshiba, Canon, Fujitsu и др., надеются применить эту технологию к тексту в сканере для преобразования текста в электронный текст, который клиентам будет удобно архивировать. Этот метод также используется в PDF.
Когда настало время 2015 года, все файлы в Google Cloud Drive предоставляли услуги OCR бесплатно. Даже предложение бесплатной услуги по-прежнему является узким сценарием, который может использовать только файлы, хранящиеся в Google Doc. К 23 мая этого года Tencent Cloud объявила о бесплатном доступе к OCR, а также о бесплатном доступе ко многим другим приложениям для обработки изображений на основе ИИ. Это означает, что вы можете использовать терминал мобильного телефона или любое оконечное устройство для сбора текстовых изображений и загрузки их в облако для анализа.
Я использую два измерения для описания применения OCR. Измерение указывает, является ли это табличным OCR или универсальным OCR. Так называемое табличное OCR проще для понимания, а это значит, что распознаваемый объект имеет табличный формат, у него есть определенные характеристики, и какой контент где записывается. В случае обычного оптического распознавания символов такого требования нет: любой текст на фотографии необходимо извлечь и указать, где находится текст или абзац текста. Это измерение. Другим измерением является размер печати и размер рукописного ввода. Это легко понять, но есть много приложений, которые также находятся на стыке. Существует также граница между почерком и печатью, потому что многие отпечатки сами по себе не очень распространены. И его можно сделать похожим на каракули или написать более небрежно. Например, вывеска, булочки Wanglaoji или Tianjin Goubuli. Сам шрифт не является обычным шрифтом, и его можно рассматривать как рукописный шрифт.
Сложность OCR, безусловно, заключается в том, что формат таблицы будет проще. С обычными немного сложнее. Точно так же рукописный ввод сложнее, а печать проще, поэтому правый нижний угол этой системы координат является более сложным приложением, а левый верхний угол немного проще. Мы часто посещаем клиентов, когда есть какое-либо практическое применение OCR. Когда клиент просит решение проблемы, будет сложнее, если оно попадет в правый нижний угол. Если он упадет в верхний левый угол, решить будет проще.
В основном это услуги печати, которые в настоящее время мы предоставляем Tencent Cloud, и обычно используется обычное распознавание текста. Отправьте изображение в Tencent Cloud, и он вернет весь идентифицируемый печатный текст на картинке и сообщит вам расположение печатного текста на картинке. Кроме того, есть некоторые документы, такие как водительское удостоверение, номерной знак, банковская карта, визитная карточка и т. д., которые будут введены один за другим позже. Теперь мы используем эти четыре функции для описания наших услуг.Во-первых, мы требуем, чтобы наши услуги были точными, кроме того, наши услуги должны быть полными, то есть распознавать английский, китайский языки и иероглифы. Теперь мы можем распознавать некоторые сценарии меньшинств. С английским проблем нет, а другие языки постепенно один за другим добавляются в нашу сферу.
Быстрая функция требуется во многих сценариях приложений, и наше распознавание символов выполняется за миллисекунды на графическом процессоре. Это занимает немного больше времени на процессоре. Существует также проблема прочности. Что касается распознавания рукописного текста, наши основные приложения — это рукописные заметки, такие как ранняя Nokia, которая может писать и распознавать их. Все мобильные телефоны теперь имеют эту функцию. Есть также некоторые документы с большим деловым объемом, такие как накладная. В этом виде бизнеса мы первыми применяем почерк в практических сценариях. Уровень распознавания номеров достигает 90%. Скорость распознавания одиночных символов находится в пределах 15 миллисекунд, а сложные китайские иероглифы превышают 80%.
Распознавание рукописного ввода подчеркивает точность чисел, главным образом потому, что распознавание рукописного ввода в основном используется в банковской и цифровой отраслях. Независимо от того, пишете ли вы адрес или выписываете чек, цифры являются наиболее важной частью. Поэтому мы уделяем большое внимание точности этого числа. Служба OCR Tencent Cloud также добилась очень хороших результатов в авторитетных оценках. Занял первое место в 2015 году. ICDAR — это международная конференция по документам и признанию, которая является более авторитетной конференцией в OCR и проводится каждые два года. Если вы заинтересованы в проведении некоторых экспериментов с распознаванием текста или в технической разработке оптического распознавания символов, вы можете посетить ICDAR, чтобы найти некоторые методы сравнения.
Проблемы самой технологии OCR заключаются в следующем: изображение, снятое пальцем. Хорошо известно, что первым шагом в ИИ для всех классов изображений является получение изображения. Иначе как его анализировать? Тогда возникнет много проблем при захвате изображения.Например, сбор данных, который вы используете, инструменты обработки изображений, такие как камеры, отличаются, и сцена изображения отличается. Также могут быть разные требования.
OCR — широко используемая технология, в реальных сценах может возникнуть ситуация, когда текст будет перекошен, размыт и т. д. Это техническая задача. Другое дело сам язык, самый простой английский OCR. Вообще говоря, китайский немного проще. Использование традиционных китайских иероглифов, рукописных иероглифов и символов национальных меньшинств увеличилось из-за отсутствия источников данных, а сложность и сложность сцен увеличились.
Различный размер текста и сложный текстовый фон. В основном это зависит от сцены.В основном, все обычно используемые этапы распознавания OCR таковы: сначала сделать анализ макета, то есть определить сцену. По анализу макета примерно понятно, что анализируется (водительское удостоверение, водительское удостоверение или накладная и т.д.). Затем следующие шаги упрощаются в более простой среде, что помогает улучшить результаты анализа и позволяет быстро анализировать ответы.
Далее идет обнаружение текста и распознавание текста. После этого идет постобработка, которая исправляет выявленные ошибки на основе некоторой семантики и контекста. Например: кофейная зола, нельзя добавлять золу после кофе, в основном это кофе. При использовании сетевой технологии глубокого обучения для распознавания текста это не пошаговый процесс, а модуль в сети и функция, соответствующая модулю. Но весь процесс остается таким же логическим процессом.
Можно сказать, что развитие самой технологии OCR можно разделить на три этапа. В самое раннее время нет необходимости в обнаружении, как и в идентификации номеров на конверте, упомянутом выше, не требуется обнаружение. Просто используйте классификатор напрямую. Ранняя технология заключается в извлечении некоторых признаков из изображения, а затем добавлении классификатора.Более зрелые технологии, такие как SVM, могут напрямую получать результаты классификации. Но в то время сценарии применения были очень узкими. Затем сцена расширяется: сначала определяют положение текста, а затем вырезают текст по частям. После вырезания небольшого изображения вернитесь к исходному процессу идентификации.
Большая проблема с этим методом заключается в том, что если вы режете спереди, ошибки сзади накапливаются. Позже, с технологией глубокого обучения, у нас появились сквозные модели. Большинство статей, опубликованных в научных кругах, основаны на сетевых структурах CNN и RNN. Роль CNN заключается в извлечении признаков изображения, а RNN используется для идентификации текстовых последовательностей. Хотя сетевая структура имеет много деформаций, логика, стоящая за ней, по-прежнему не сильно отличается от оригинала: сначала извлекаются некоторые признаки из изображения, а затем сопоставляются признаки на изображении с текстом. CNN является наиболее часто используемым способом извлечения признаков изображений, поэтому сетевая структура CNN+RNN обрабатывает изображения, и, наконец, изображения генерируют серию текстовых признаков и, наконец, формируют текстовый процесс.
Самым большим преимуществом механизма Attention является то, что при определении текущего слова или слова он будет учитывать, какие слова до и после него влияют на слово. Ну а раньше такого не было, вообще считалось, что все эффекты одинаковы. Поскольку существует определенная связность, каждое слово (слово) связано со своим контекстом. Учитывая эту взаимосвязь, необходимо улучшить общую модель и скорость распознавания. В то же время связи в разных языках также различны, что также дает определенную информацию для исследования языка.
Этот PPT соответствует только что упомянутому традиционному процессу OCR.Во-первых, получение изображения бинаризируется, чтобы предложить часть, которая может быть текстом. Затем разделите эти слова, разделите эти слова на части, а затем поместите эти части маленьких картинок в классификатор, чтобы определить, какими символами являются эти слова. После суммирования строк будет выполнена коррекция обработки естественного языка, и, наконец, будет возвращен правильный результат. В настоящее время Tencent Cloud в основном не использует этот традиционный метод, а в основном использует сквозной метод.В дополнение к сквозному методу был создан набор методов, аналогичных набору инструментов, в соответствии с различными сценариями. . Для разных сценариев применения вам нужно только найти из набора инструментов наиболее подходящие для этого сценария инструменты или модули, затем связать их вместе для настройки и, наконец, сформировать общую модель распознавания.
Далее я сначала расскажу об услугах Tencent Cloud, а затем представлю некоторые комплексные приложения, которые мы создали. Разница между ними заключается в том, что сам облачный сервис обладает определенной степенью универсальности: в принципе, каждый может подать заявку на учетную запись в Tencent Cloud, отправлять изображения через стандартные API и так далее. Проекты более адаптированы для решения конкретной задачи. Мы разработаем систему или процесс в соответствии с конкретной проблемой и процессом, который он производит, чтобы соответствовать его реальному бизнесу, чтобы повысить эффективность их производства.
Идентификацию ID можно назвать самым популярным проектом идентификации в настоящее время. Давным-давно, когда мы шли в отель, чтобы зарегистрироваться, там был процесс аутентификации, называемый интеграцией человеческих и удостоверений личности, который существовал до появления искусственного интеллекта. Подойдите к отелю, введите номер удостоверения личности в компьютер на стойке регистрации и отправьте его на удаленный сервер базы данных, авторизованной общественной безопасностью, после чего сервер вернет фотографию удостоверения личности. на фото тот же человек, что и вы, и проверка завершена, вы можете оставаться в магазине.
Нынешняя технология была разработана таким образом, что клиент вставляет свою идентификационную карту в устройство чтения карт, оно отправляет информацию об идентификационной карте в базу данных идентификационных данных и возвращает фотографию, а также получает информацию о лице через камеру и сопоставляет информацию о съемке с фотографией. ID-карта Прямое сравнение. В настоящее время эта технология используется не только для проживания в отелях, но и для поездок на скоростных поездах, она все чаще используется в таких сценариях, как интеграция охранников и билетов.
Распознавание визитных карточек находится где-то между форматным и неформатным универсальным. Поскольку информация, содержащаяся в визитной карточке, является достоверной, она всегда будет содержать имя, место работы и номер телефона. Используемые шрифты относительно постоянны во всех аспектах, поэтому они отформатированы. Смещение является общим, поскольку местоположение каждой части контента не определено. Например, в некоторых особенно креативных визитных карточках часто используются некоторые символы для замены некоторых слов, которые следует использовать.
Сервис распознавания автомобильных номеров имеет широкий спектр применения. С одной стороны, парковка, а также идентификация скоростных въездов и выездов и управление движением транспортных средств также используют идентификацию номерного знака OCR. Основные трудности распознавания автомобильных номеров заключаются в разнообразии сцен и неуправляемости аппаратуры для сбора данных. Если устройство не является устройством высокой четкости, после увеличения будет размытие.
Идентификация водительского удостоверения и водительского удостоверения обычно используется для услуг в сфере аренды автомобилей и технического обслуживания транспортных средств. Подобными сервисами будут пользоваться каршеринг и Didi. Самой большой сложностью OCR в сфере таких документооборотов является отражение документов. Сам документ этого типа будет иметь слой пленки, которая может отражать свет при съемке. Предварительная обработка станет важным модулем для распознавания OCR.Этот метод предварительной обработки обычно разрабатывается отдельно для такого рода задач.Что он должен произвести? Высокая динамика, то есть это будет очень ярко. Требуется очень динамичный стандартный процесс нормализации, а часть распознавания должна быть нормализована в относительно согласованное изображение.
Банковская карта является относительно распространенной услугой в этой области.Шрифт банковской карты относительно прост, а положение относительно фиксировано, но иногда шрифт становится трудно распознать, особенно при различных условиях ношения. Относительный формат распознавания счетов относительно фиксированный, проблема в том, что существует много типов счетов, и шрифты счетов иногда очень нечеткие.
Универсальная печать OCR является относительно распространенным продуктом OCR, и значительная часть использования OCR приходится на универсальную печать. Значительную долю составляет узнаваемость рекламы. Самая большая сложность этого типа оптического распознавания символов заключается в том, что сложно предсказать, как будет выглядеть его фон, да и шрифты тоже разные. С точки зрения категоризации, это будет своего рода приложение между печатью и рукописным вводом. Для этого типа распознавания необходимо иметь достаточно большую библиотеку шрифтов, если ее недостаточно для решения задачи, необходимо заложить в нее технологию рукописного ввода, чтобы обеспечить относительно высокую скорость точного распознавания.
Решение, созданное для этого сценария, может обеспечить уровень точности более 90 %. Фактически, это также распространенный метод применения обычной печати. Его проблема в том, что сцена сильно меняется, и это будет связано с проблемой изменения света. В случае с рекламой не будет слишком много проблем с изменением освещения.Этот вид угла освещения является проблемой.В то же время есть также размытые изображения, вызванные дрожанием камеры, и окклюзия текста, вызванная размещением... Все это будет иметь влияние.
Список анализов крови также является частью проекта, который мы делаем.Список анализов крови, распечатанный в больнице, имеет очень маленький интервал текста и мелкие символы.В то же время при распознавании будет происходить искажение перспективы. Есть два способа справиться с этой ситуацией: первый — использовать сверхразрешение для предобработки, я сначала выполняю одно из своих изображений, что можно понимать как разницу в производительности с использованием технологии искусственного интеллекта, чтобы разрешение было выше , Текст выглядит более узнаваемым, и идет процесс распознавания распознавателя. Второй метод интегрирует деталь прямо сейчас в дизайн сети.Самое большое преимущество заключается в том, что он будет иметь более высокую точность распознавания и более высокую скорость распознавания для этой ситуации. Его недостатком является то, что при столкновении с другими подобными проблемами потребуются более масштабные корректировки для применения к новым сценариям.
Распознавание почерка затруднено. Мы были первыми, кто применил распознавание рукописного ввода в реальных сценариях. Сценариями применения в основном являются экспресс-накладные и банковские чеки.
Все вышеперечисленные сервисы могут найти соответствующие сервисные интерфейсы в Tencent Cloud, и вы можете бесплатно использовать эти сервисы для самостоятельного создания приложения. Когда вам действительно нужно разработать программное обеспечение или выполнить распознавание рукописного ввода или общее распознавание OCR, вы можете напрямую вызвать эти службы для завершения приложения.
Ниже приведены реальные сценарии применения OCR с четкими целевыми клиентами. Проблема логистической накладной: примерно в 2010 году индустрия экспресс-доставки развивалась очень быстро. В то время их накладная должна была быть написана от руки, а затем внесена в базу данных перед доставкой.
В первые дни был принят ручной ввод, и в шутку говорили, что это может быть еще один рынок печати после пейджеров. Мы и SF Express используем рукописное распознавание текста для завершения процесса ввода накладной. Этот метод OCR может работать непрерывно, имеет точность 91% и является более конфиденциальным.
Текущая система OCR может обрабатывать 10 миллионов заказов в день, что эквивалентно рабочей нагрузке более 3000 человек, работающих в три смены. Когнитивный андеррайтинговый проект Taikang — это то, чем мы сейчас занимаемся, и мы постоянно ищем границы бизнеса и приложений, которых может достичь OCR. Проект восстановления ядерного страхования Taikang: раньше необходимо было вручную подтверждать, может ли текущее физическое состояние человека купить эту медицинскую страховку.
Наша главная цель — разработать систему, которая заменит первоначальный метод андеррайтинга и уменьшит потребность в врачах или андеррайтерах с медицинским опытом. Благодаря анализу OCR эти политики форматируются и структурируются для вывода. После этого проводится извлечение индивидуальных характеристик риска. Затем модель прогнозирования устанавливается с помощью характеристик и, наконец, получается заключение об андеррайтинге.Самая большая сложность этого проекта для OCR заключается в том, что существует множество типов форматов документов и разных источников.
Вторая трудность заключается в том, что качество изображений, получаемых отсканированными деталями, сильно различается, а третья система проектирования требует определенного понимания медицинских знаний. Метод, который мы приняли, заключается в том, что в дополнение к нашим собственным возможностям проектирования OCR мы также пригласили медицинских экспертов из Тайкана для совместного участия в разработке и добавили в систему как можно больше знаний. С одной стороны, возможность преобразования слов OCR обеспечивается через библиотеку медицинских шрифтов, с другой стороны, суждение закрепляется и стандартизируется с помощью машинного обучения при выполнении прогнозной регрессии.
В будущем мы продолжим изучение передовых практических приложений ИИ, особенно OCR. Дополните библиотеку исправления ошибок дополнительными сведениями о сценах, чтобы систему можно было применять к большему количеству различных сцен.
Q&A
**Q: **OCR, например, в процессе распознавания на вступительных экзаменах в колледж, есть ли разница между ним и курьерским сканированием? Сделали ли вы OCR-сканирование вступительных экзаменов в колледж? Благодарность
**A:** Мы сделали это, но это не экзамен для поступления в колледж, а для получения образования. На самом деле образование предназначено не только для вступительных экзаменов в колледж. На самом деле, когда вы сдаете вступительные экзамены в колледж, слова, которые вы пишете, часто более четкие, чем слова, написанные в путевом листе, что относительно проще. Еще хлопотнее то, что в нем много формул, а это немного головная боль. Есть еще одно отличие, в накладной узкий круг того, что вы хотите ввести, вы можете ввести только адрес, и можете считать, что вы исчерпали все варианты адресов. Однако слова вступительного экзамена в колледж относительно расходятся, и такой законченной работы в нем нет. Так что в целом сложность вступительного экзамена в колледж немного выше, чем сложность путевого листа. Но у нас также есть некоторые приложения в образовании, и в этом отношении наша основная работа фактически связана с формулами.
**В:** Позвольте спросить, у меня есть вопрос, если я загружаю большое количество PDF-файлов, поскольку PDF-файл представляет собой отсканированное изображение, его текст может быть глубоким или поверхностным, когда я загружаю PDF-файл для его сканирования. , как мне быть с этой штукой, когда ввожу большой объем данных?
**A:** Меня это немного смущает. На самом деле, ответ коллеги на вопрос об обращении P более уместен. Потому что я делаю приложение алгоритма.
**В:** Например, глубина картинки не разрезается на множество блоков, после разрезания множества блоков происходит сращивание по порядку между блоками, как делается этот кусок?
**A:** Теперь есть много способов. Мы принципиально не рекомендуем сейчас такой способ деления на мелкие кусочки. По крайней мере, вы можете разбить на строки, что лучше, чем разбиение на куски, если вы делаете RNN. Я предлагаю сначала построить базовый процесс наиболее знакомым методом, а потом вы обнаружите, что в нем есть какие-то шаги, а потом эти шаги постепенно оптимизируются и объединяются. Потому что, если некоторые шаги состоят из двух шагов, вам не нужно использовать два шага, это лучше решить с помощью сети. Может быть, лучше использовать сеть, поэтому я в основном предлагаю, чтобы идея разработки была такой идеей развития.
**В:** Я только что увидел, что у вас было много предварительной информации, когда вы работали над проектом Taikang. Я хотел бы спросить, какой части модели соответствует эта предварительная информация?
**A:** Когда мы только начинали, мы все еще должны использовать методы постобработки или предварительной обработки, чтобы сделать это отдельно. Первый из них относительно прост в реализации: вы можете проверить, действительно ли вам полезны ранее полученные знания. Когда вы уверены, что это полезно, вы разбиваете его на отдельные фрагменты, а затем дополнительно оптимизируете, чтобы сформировать целую функцию. Реальная ситуация может возникнуть в обоих случаях, и некоторые из них будут разделены на две части.Конечно, это разделение имеет небольшое техническое содержание.Это правда, что будет некоторый прикладной дизайн.
вопросы и ответы
Языковые требования для разработки ИИ?
Связанное Чтение
Отчет о безопасности | Тенденции грубой силы SSH: миграция с облачных платформ на устройства IoT
Эта статья была разрешена автором для публикации Tencent Cloud + Community, исходная ссылка:cloud.Tencent.com/developer/ ах…
Добро пожаловать в сообщество Tencent Cloud+ или подпишитесь на общедоступную учетную запись WeChat облачного сообщества (QcloudCommunity), чтобы как можно скорее получить больше массовой технической практики по сухим товарам~
Огромный технический практический опыт, все вСообщество Юнцзя!