Восемь ученых мира рассказывают о разработке и применении компьютерного зрения: увидеть значит поверить

машинное обучение искусственный интеллект глубокое обучение алгоритм компьютерное зрение робот Тенсент

6 сентября 2018 года Tencent Youtu совместно с ведущим международным журналом Science проведет саммит по компьютерному зрению, на котором будут приглашены ведущие эксперты и ученые из области компьютерного зрения, чтобы обсудить передовые технологические прорывы и тенденции отраслевого применения компьютерного зрения.

Зрение является важной частью человеческого познания мира.Как одна из основных технологий искусственного интеллекта, каково состояние развития компьютерного зрения в последние годы? Есть ли такое применение в современной человеческой жизни? Превзошел ли он человеческий глаз? Какие перспективы развития будут в будущем? Недавно Tencent Youtu и журнал «Science» совместно выпустили «Увидеть — значит поверить: исследования и разработки приложений компьютерного зрения» (Видеть значит верить: разработка и применение компьютерного зрения) тематический отчет, посредством интервью с экспертами в области компьютерного зрения по всему миру, представляя общественности всестороннюю интерпретацию текущего развития технологии компьютерного зрения, а также открывая предстоящий саммит по компьютерному зрению.

Ниже приводится полный текст доклада (перевод на китайский язык).


Видеть значит верить: разработка и применение компьютерного зрения

Искусственный интеллект (ИИ) когда-то был просто научно-фантастической технологией, но теперь исследовательские лаборатории разрабатывают повседневные продукты, использующие ИИ. Развитие технологии искусственного интеллекта в значительной степени связано с развитием компьютерного зрения. Технология компьютерного зрения связана с созданием программного обеспечения, которое может собирать и обрабатывать визуальную информацию. Применение компьютерного зрения может идентифицировать людей на фотографиях, считывать рентгеновские снимки и выполнять интеллектуальные обновления заводских роботизированных систем, но его влияние выходит далеко за рамки этого.

Большинство из нас настолько привыкли к нашему зрению, что для того, чтобы взять вилку или поймать мяч, нашему мозгу требуется много вычислений. Прошло всего несколько лет с тех пор, как компьютеры стали быстрыми, мощными и достаточно компактными, чтобы обеспечить практическое применение компьютерного зрения.Современные методы компьютерного зрения используют глубокое обучение, основную область ИИ, вдохновленную человеческим мозгом.. Искусственная нейронная сеть (ИНС), используемая алгоритмами глубокого обучения, представляет собой слой взаимосвязанных узлов, которые могут анализировать и передавать информацию друг другу, подобно механизму связи нейронов.

Если мы покажем нейросети селфи, один слой нейронов распознает толстые линии, напоминающие очертания лица; другой слой нейронов сфокусируется на областях между пятью чувствами, например на расстоянии от глаз до рта; другие нейроны будут отвечать за наблюдение за формой уха. Из этого алгоритм может определить, является ли это фотографией человека, и даже кем является этот человек.

«Нейронные сети могут легко генерировать оптимальные алгоритмы для большинства задач компьютерного зрения», — сказал Джиа Джиая, выдающийся ученый из Tencent Youtu Lab. Tencent со штаб-квартирой в Шэньчжэне, Китай, является мировым лидером в области интернет-услуг и продуктов, развлечений и искусственного интеллекта.

Подобно искусственным нейронным сетям, инженеры по технологиям компьютерного зрения пытаются имитировать работу зрительной системы человека. Но одно преимущество машины перед человеком заключается в том, что ей не нужно полагаться на видимый свет, как это делают люди, и она может использовать датчики, чтобы видеть мир более четко.

"Во многих задачах, таких как распознавание лиц и классификация изображений, компьютерное зрение может работать лучше, чем человеческое. Но в других задачах, требующих рассуждений, компьютерному зрению еще предстоит пройти долгий путь.. «Люди могут легко понять отношения между объектами, и мы можем составить историю, увидев картинку». Но компьютеры далеки от такого уровня понимания и воображения. "

С непрерывным развитием технологии компьютерного зрения она принесет больше новых открытий. И компьютерное зрение, и ИИ находятся на начальных этапах своего развития, и еще многое предстоит изучить. Достижения в области технологий компьютерного зрения могут способствовать быстрому развитию ИИ, превращая в реальность все сюжеты научной фантастики, такие как самоуправляемые автомобили, роботы-домработницы и даже дальние космические путешествия.

Обучение на практике: как работает ИИ

Как и большинству систем искусственного интеллекта, компьютерному зрению необходимо учиться на огромном океане данных. Исследователи просматривают данные и тщательно маркируют их на основе характеристик, которые они хотят, чтобы ИИ понял. Для задач компьютерного зрения исследователи собирают сотни фотографий для анализа. Размеченные данные становятся парадигмой, на которой ИИ обучается классифицировать или находить закономерности. Чтобы проверить, насколько хорошо ИИ обучается, исследователи показывали новые немаркированные изображения и проверяли, смогут ли они правильно их классифицировать.

В дополнение к человеческим усилиям, связанным со сбором, маркировкой и подготовкой огромных объемов данных, еще одним серьезным препятствием является большая вычислительная мощность, необходимая для запуска обучающих алгоритмов. Недорогие онлайн-сервисы позволяют исследователям обучать алгоритмы в облаке, не вкладывая тысячи долларов в мощные компьютеры, хотя результаты обучения все равно могут занять часы или даже дни.

Улыбка в камеру: распознавание изображений и видео

Одним из самых важных достижений в области искусственных нейронных сетей стал ImageNet. ImageNet собирает 14 миллионов помеченных изображений и была выпущена в 2009 году. Задача ImageNet заключалась в том, чтобы участники разработали алгоритм, который мог бы классифицировать фотографии как человека, но победителя не было. До 2012 года команда, использующая алгоритмы глубокого обучения, добивалась значительно лучших результатов, чем предыдущие попытки.

Сегодня некоторые из наиболее распространенных способов взаимодействия людей с компьютерным зрением включают автоматическую маркировку изображений и распознавание лиц по фотографиям, и все они основаны на победившей технологии ImageNet.. Эти приложения облегчают определенные задачи, такие как визуальный поиск покупок в Интернете, автоматическая пометка фотографий в социальных сетях и многое другое.

Помимо распознавания изображений, эта новая технология также расширяет границы редактирования фотографий. Алгоритмы сегментации изображения являются частью компьютерного зрения, которые помогают машинам делить изображение на разные части, например, идентифицировать людей на заднем и переднем плане. Пользователи могут быстро редактировать фотографии для достижения профессиональных эффектов ретуши.

Возможности визуального распознавания в настоящее время применяются и к видео. Алгоритмы компьютерного зрения могут просматривать видеопоток с камеры и отмечать важные части, чтобы людям не приходилось возвращаться и смотреть видео несколько часов подряд. Исследователи постоянно пытаются понять эмоции людей в видео, но некоторые учреждения уже внедряют эту технологию. Средняя школа № 11 Ханчжоу, например, в провинции Чжэцзян на востоке Китая, пытается отслеживать поведение учеников в классе с помощью камер, называемых «глазами мудрости».

Пусть у робота нормальное зрение

Преобразование 2D-изображений в 3D-данные сопряжено с другими проблемами и множеством новых возможностей. Предоставление роботам компьютерного зрения — одна из многообещающих областей.

Роботы начали использоваться в производстве в 1960-х годах, и эти устройства могут поднимать тяжелые предметы, выполнять повторяющиеся задачи и легко превосходить людей, выполняя точные измерения в течение нескольких часов.

Даника Крагич, профессор робототехники в Королевском технологическом институте KTH в Стокгольме, сказала: «Эта область всегда была связана с созданием роботов, которые могут выполнять задачи, недоступные людям».

По словам Крагича, поскольку 40 процентов человеческого мозга предназначено для обработки визуальной информации, важно понимать, в какой степени им нужна визуальная информация, если они хотят создавать машины, которые могут имитировать наш мир и взаимодействовать с ним. «Мы, люди, естественным образом используем визуальную обратную связь, когда делаем что-либо», — сказал Каргич.

Машины, способные обрабатывать визуальную информацию, могут выполнять более сложную работу на фабриках и даже в наших домах. Некоторые навыки, такие как подбирание мягких предметов, которые меняют форму при нажатии, остаются недоступными для роботов. Это потому, что когда люди наблюдают, мы получаем больше, чем просто визуальную информацию, мы также получаем подсказки о физических свойствах объектов и физические знания, необходимые для взаимодействия с ними. Машины должны иметь возможность собирать такого рода информацию, чтобы ориентироваться в физическом мире так же легко, как это делают люди.

«Среди пяти чувств зрение является самым важным, потому что оно дает людям возможность понимать сложный мир», — сказал Цзя Джиая, — «Точно так же компьютерное зрение позволяет компьютерам наблюдать за окружающей средой, как люди, и следить за окружающей средой. интерактивный».

Датчики, которые дают роботам лучшее понимание мира, — это следующая итерация технологии, которая может позволить роботам выполнять задачи, которые сегодня невозможны.

Скоро: самоуправляемые автомобили

Автономные транспортные средства являются одной из наиболее хорошо финансируемых и целенаправленных областей разработки ИИ, и всестороннее понимание мира имеет решающее значение для автономных транспортных средств (АВ). В дополнение к камерам большинство беспилотных автомобилей используют лидар, радар, GPS и алгоритмы восприятия для навигации.

«Многие алгоритмы, которые мы используем, основаны на компьютерном зрении, но теперь речь идет не только о данных камеры», — сказала Ракель Уртасун, доцент Университета Торонто и глава группы передовых технологий Uber в Торонто. «Мы хотим поставить на машину не только глаза».

Такие компании, как Uber, надеются, что к 2020 году автомобили с автопилотом будут ходить по дорогам и будут перевозить пассажиров. Эти автомобили будут ездить только по заранее выбранным маршрутам или требуют, чтобы кто-то сидел на месте водителя, чтобы иметь возможность вручную взять на себя управление, если что-то пойдет не так. Конечной целью этой технологии является достижение настоящей автономии, позволяющей пассажирам заниматься другими делами, помимо наблюдения за дорогой.

Уртасун сказал, что для достижения этой цели необходимы достижения как в аппаратном, так и в программном обеспечении. С аппаратной стороны лидар может стоить десятки тысяч долларов, что делает его слишком дорогим для масштабного развертывания; с точки зрения программного обеспечения инженеры должны найти способ дать ИИ возможность обобщать и различать объекты. Если водитель-человек увидит что-то неожиданное на дороге (например, упавший шнур питания), он поймет, что этот провод следует обойти. И если беспилотный автомобиль сталкивается с чем-то, с чем он не сталкивался на тренировках, он может быть не в состоянии безопасно отреагировать.

Уртасун сказала, что, хотя беспилотные автомобили еще не в расцвете сил, она по-прежнему надеется, что ее усилия по улучшению датчиков и обучающих алгоритмов будут использованы с пользой. К счастью, далее объясняет Уртасун, «эта технология может решить многие другие проблемы».

Экспресс-почта: дроны

Исследователи надеются, что машины смогут управлять не только автомобилями: дроны также обучаются летать автономно. Исследования дронов сталкиваются с той же загадкой, что и исследования беспилотных автомобилей. Высококачественные обучающие данные сложны и дороги, разные схемы полета означают, что дроны необходимо обучать новым сценариям, а правила затрудняют тестирование в некоторых областях. Даже при обучении летать может быть очень сложно.

«Каждый, кто пытался управлять дроном, знает, что это непросто», — говорит Тинне Тютелаарс, профессор бельгийского исследовательского университета Католического университета Лёвена. Однако, в отличие от беспилотных автомобилей, дроны дешевле совершать ошибки. «Если дрон разобьется, — пожимает плечами Туйтелаарс, — это не страшно».

Дроны уже используются в таких приложениях, как помощь при стихийных бедствиях и инспекции трубопроводов. Однажды они смогут доставлять и перевозить пассажиров. Такие компании, как Amazon и Boeing, уже тестируют дроны, и в будущем они могут доставлять посылки так же, как это делают сегодня почтовые перевозчики.

В некоторых случаях несколько дронов могут появляться в одном и том же воздушном пространстве и координировать свои полеты друг с другом лучше, чем пилоты-люди. Заставить их летать автономно означает сократить расходы и предоставить технологию в руки большего числа людей и компаний по всему миру.

робот-врач

Помимо транспорта, наиболее существенны изменения, внесенные компьютерным зрением в медицинскую сферу. Алгоритмы ИИ уже могут идентифицировать состояния, такие как переломы и пневмония, на медицинских изображениях лучше, чем рентгенологи.

"Взрыв больших данных, особенно в области медицины, означает, что у нас есть доступ к большему количеству данных для исследований.. «Мы используем данные для решения более сложных задач, чем когда-либо прежде», — сказала Беатрис Ремесейро, доцент компьютерных наук в Университете Овьедо в Испании. "

В прошлом году Google объявила о разработке новых алгоритмов распознавания изображений, которые можно использовать для обнаружения признаков диабетической ретинопатии — состояния, которое может привести к слепоте, если его не лечить. По сравнению с экспертами-людьми, алгоритм может обнаруживать небольшие аневризмы, которые являются ранними признаками заболевания, на фотографиях сетчатки пациентов.

В 2017 году Tencent также выпустила продукт искусственного интеллекта для медицины, Tencent Miying, который может выявлять рак пищевода путем сканирования изображений эндоскопии верхних отделов желудочно-кишечного тракта с точностью 90% для ранней стадии рака пищевода. В настоящее время Tencent Miying используется более чем в 100 больницах Китая, а в будущем он также поможет в диагностике диабетической ретинопатии, узелков в легких, рака шейки матки и рака молочной железы.

Другие инструменты, использующие технологию искусственного интеллекта, также используются для раннего выявления инсульта, что дает пациентам больше шансов на выживание. Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США недавно объявило, что оно упростит процесс, чтобы ускорить одобрение продуктов ИИ.

Конечно, эти инструменты не заменят врачей в ближайшее время, они скорее консультанты, чем замена практикующего врача. Компьютерное зрение может повысить производительность и сделать более доступным медицинское обслуживание для людей в районах, где не хватает врачей. Эти инновационные технологии также используются для минимизации инвазивных опасностей для человеческого организма. Например, компьютерная томография более информативна, чем рентген, но подвергает пациента большему облучению. ИИ может анализировать рентгеновские снимки и предоставлять врачам информацию, эквивалентную компьютерной томографии.

«Медицинская визуализация — это область, в которой компьютерное зрение может предоставить больше информации, чтобы действительно изменить ситуацию», — сказал Рамин Забих, профессор компьютерных наук в Корнельском университете и научный сотрудник Google Research. "История медицины показала, что если бы у врачей было больше данных, это могло бы означать лучшую помощь пациентам.. "

Далеко и близко: пограничные устройства и космический корабль

Все эти области впечатляют, а будущее компьютерного зрения еще ярче. Одно из самых больших изменений, которое вот-вот затронет отрасль, — это периферийные устройства — аппаратное обеспечение, управляющее потоком данных на границе между двумя сетями. Большую часть обработки ИИ необходимо выполнять на больших удаленных облачных серверах, поскольку выполнение этих алгоритмов требует очень больших вычислительных ресурсов. С другой стороны, создаются периферийные устройства, обладающие достаточной вычислительной мощностью для выполнения работы локально. Пограничные устройства становятся все более распространенными, поскольку такие компании, как Nvidia и Facebook, начинают производить чипы специально для запуска ИИ. Это обеспечит более быструю и безопасную обработку данных и позволит пользователям проводить более специализированное обучение ИИ с использованием собственных данных, повышая степень настройки отдельных результатов.

«Это приведет к большему количеству инноваций», — сказал Реми Эль-Уаззан, бывший генеральный директор калифорнийской компании Movidius, которая занимается разработкой процессоров с низким энергопотреблением, предназначенных для компьютерного зрения. Реми Эль-Уаззан также в настоящее время является главным операционным директором Intel AI Products Group, еще одной технологической компании из Калифорнии, которая производит полупроводниковые чипы и микропроцессоры.

Эль-Уаззан сказал, что миллиарды устройств, от умных домашних устройств и камер наблюдения до беспилотных автомобилей, могут использовать искусственный интеллект и работать на периферии. Также будут созданы технологии, которые смогут находить пропавших людей (например, путем сканирования изображений толпы) или предупреждать родителей, когда ребенок не чистит зубы перед сном.

«Вопрос не в том, «может ли это произойти», а в том, когда это произойдет», — сказал он.

Помимо микромира периферийных устройств, компьютерное зрение также представляет особый интерес для астрономов, которые собирают и изучают массивные наборы данных из бескрайнего космоса. Kaggle, онлайн-платформа для соревнований по прогнозному моделированию и анализу, проводит конкурс на Kaggle, который использует методы глубокого обучения и компьютерного зрения, чтобы позволить исследователям узнать больше о темной материи, которая доминирует в нашей Вселенной, глядя на астрономические изображения.

Кроме того, существует исследовательский инкубатор, занимающийся продвижением освоения космоса с помощью ИИ. Frontier Development Lab (FDL) — это партнерство НАСА и таких компаний, как Intel AI, Google Cloud, Lockheed и IBM. FDL пригласил астрономов и ученых-компьютерщиков в Силиконовую долину, штат Калифорния, для совместной работы в течение восьми недель над такими проблемами, как понимание солнечных вспышек, картирование Луны и поиск астероидов. По словам Джеймса Парра, одного из основателей FDL, план не был бы успешным без компьютерного зрения. Фактически, Лаборатория реактивного движения НАСА (JPL) в Пасадене, Калифорния, сыграла важную роль в изобретении технологии камеры, которая сегодня влияет на большинство программного обеспечения компьютерного зрения.

«Существует симбиотическая связь между компьютерным зрением и космической программой, — сказал Парр. «Но эта тема недостаточно обсуждается в космической отрасли».

Это также повлияет на исследование космоса, поскольку ИИ имеет решающее значение для полета на Марс и за его пределы. Задержка связи между космическими путешественниками и командным центром Земли означает, что система должна иметь возможность принимать автономные решения, многие из которых основаны на визуальных данных.

«Поскольку мы продолжаем исследовать мир, нам нужны роботы и автономные системы для подготовки и помощи астронавтам, строительства структур, поиска и извлечения ресурсов», — сказал Парр. «Это захватывающее время открытий и исследований».

Не менее интересно исследовать, как компьютерное зрение изменит жизнь на Земле. По мере того, как ИИ расширяется и развивает новые возможности, он может столкнуться с новыми техническими проблемами. Но когда мы оглядываемся назад на историю ИИ, способность дать компьютерам зрение, вероятно, является самым важным достижением.Машины со зрением приведут нас к светлому будущему.


В области искусственного интеллекта с глобальной точки зрения мы видим, что мощь Китая растет и завоевывает признание научного сообщества, становясь важной силой в содействии развитию искусственного интеллекта. Tencent, как один из китайских образцов, привлекающих внимание всего мира, полагается на богатые сценарии приложений, чтобы лучше интегрировать искусственный интеллект с отраслями и сценариями и принести нам настоящее компьютерное зрение. Как говорится в докладе, машины со зрением приведут нас к светлому будущему.


Могут ли компьютеры действительно «видеть» будущее? для вашего опыта.

Woohoo. Код AD. Can/20180822-специальный…

Вы также можете подписаться на общедоступную учетную запись Tencent Youtu WeChat для получения дополнительной информации.