Особенность | Анекдот о десятилетии CVPR: Из башни из слоновой кости

искусственный интеллект глубокое обучение Microsoft компьютерное зрение

Сердце машины Оригинал, Тони Пэн.

Это не первый раз, когда Ши Цзяньпин приезжает в CVPR. За последние восемь лет она почти не пропустила ни одного срока и привыкла подавать документы на визу в США раз в год. Однако с годами личность участника CVPR постоянно менялась: от студента бакалавриата до докторанта, до исследователя, а теперь до директора по исследованиям Shangtang Technology.

В этом году она принесла пять докладов CVPR, в том числе один устный и два тематических, что является довольно внушительным числом. SenseTime также представила рекордные 44 статьи в этом году, уступая только Google 45. В прошлом было совершенно невообразимо, чтобы промышленная компания выбирала более 40 статей для CVPR.

CVPR сильно изменился за последнее десятилетие. Компьютерное зрение, которое когда-то самооценивалось в академических кругах, теперь вышло из башни из слоновой кости и стало самой ослепительной звездой новых технологий в центре внимания. Главный герой конференции, от векторной машины года до популярного сегодня глубокого обучения; ImageNet Challenge ILSVRC, родившийся в 2010 году, также поставил точку в прошлом году...

Десять лет назад участников было всего 1500 человек, в этом году их число превысило 6500. Студенты, приехавшие тогда на конференцию, стали старшими научными сотрудниками или главными научными работниками отрасли...

Изменения на протяжении многих лет, подпитываемые комитетом, также являются неизбежным результатом перемен времени. Большинство людей радуются этим изменениям, но многие беспокоятся о прибылях и убытках. К истории стоит вернуться.


невежественный китайский ученый

В 2011 году Ши Цзяньпин, который собирался окончить колледж Чжу Кэчжэнь Чжэцзянского университета, получил электронное письмо от комитета CVPR: Поздравляем, ваша статья была выбрана для устной презентации в этом году. Это так взволновало ее.

CVPR, полное название Международной конференции IEEE по компьютерному зрению и распознаванию образов, является одной из трех ведущих конференций в области компьютерного зрения вместе с ICCV и ECCV. Компьютерная наука развивается быстро, и передовые обновления часто меняются с каждым днем.По сравнению с журналами, которые могут быть опубликованы только через 1-2 года, ученые, как правило, представляют свои статьи на ежегодные научные конференции.

Быть выбранным для устного выступления означает не только то, что ваша статья будет высоко оценена комиссией, но вы также сможете сделать 15-20-минутную презентацию перед присутствующими (теперь время сокращено). Общий уровень приема работ в CVPR составляет 25-30%, а уровень приема на устные - не более 5% (3,5% в 2011 г.), а остальные - плакаты (тезисные плакаты), а третий - только появившийся в 2016 г. , Форма прожектора, краткая презентация.

Согласно неполным статистическим данным, Ши Цзяньпин, вероятно, был первым отечественным студентом, чья диссертация была выбрана для CVPR Oral. Тема ее исследования — невыпуклый релаксационный подход к изучению разреженного словаря. Обучение разреженным словарям в то время было относительно популярной темой исследований (нахождение разреженных представлений входных данных в виде линейных комбинаций основных элементов и самих этих основных элементов, также известное как разреженное кодирование). Однако с появлением глубокого обучения ни одному из этих методов не место.

CVPR — это первый контакт Ши Цзяньпина с крупной международной конференцией. Получив визу, она была готова уехать в США.

В этом году CVPR только что переехал из Сан-Франциско годом ранее в Колорадо, внутренний город Соединенных Штатов, и количество участников упало с 2000 в предыдущем году до более чем 1000 человек. Не больше, чем сегодняшний CVPR, который будет выбран в XX Convention Center, спецификаций того года достаточно, чтобы провести его в отеле Crowne Plaza. Два бальных зала в отеле используются для устных выступлений, а три других зала на первом этаже используются для демонстрации плакатов. В отеле время от времени размещаются стенды компаний из промышленного мира. Несколько небольших столов собраны вместе и сложены для набора люди откровение.

На протяжении многих лет расписание CVPR оставалось неизменным: со вторника по четверг — официальные дни конференции, с понедельника по пятницу и даже в субботу — семинары и учебные пособия.

Выступление Ши Цзяньпина было назначено на полдень вторника, и все прошло хорошо. Остальное время она проводит за просмотром постеров. В то время было получено не так много статей, и я прочитал более 40 статей за полтора часа, но, поскольку это было в первый раз, она не могла понять большинство из них.

Скриншот устного видео Ши Цзяньпина на CVPR 2011

До 2011 года даже первоклассные академические учреждения Китая, в том числе Университет Цинхуа, Чжэцзянский университет и Институт автоматизации Китайской академии наук, в то время не могли подавать документы CVPR. Это не из-за отсутствия исследовательской способности отечественных ученых, а из-за необходимости множества «дорвеев» для подачи статей по CVPR: Правилен ли выбор темы? Является ли английское письмо стандартным? Как следует проводить эксперимент? В то время отечественным академическим учреждениям не хватало ученых-возвращенцев и соответствующей академической среды, из-за чего им часто не разрешалось следить за пульсом международных конференций.

Полевой председатель CVPR 2017 Ли Фусинь, который сейчас преподает в Орегонском государственном университете, вспомнил сцену, когда он учился на докторскую степень по профессиональной академической подготовке, не зная, как понять детали экспериментального дизайна и написания диссертации. ”

Ли Фусинь также рассказал о подробностях написания диссертации в том году: «Когда я впервые поехал за границу, наиболее часто меняемым тезисом в моей диссертации было «получить» заменено на «получить», «что-то сделать» было изменено на «чтобы делать что-то», это похоже на одно и то же, но в этом разница между устной и письменной речью».

Еще одна причина, о которой стоит упомянуть, заключается в том, что отечественные академические учреждения не уделяли особого внимания CVPR примерно до 2010 года (конкретное время не удалось проверить), когда CVPR была определена как конференция уровня A.

Microsoft Research Asia (называемая Microsoft Asia Research) и Мультимедийная лаборатория Китайского университета Гонконга (называемая лабораторией CUHK) в то время были двумя основными центрами компьютерного зрения в Китае. Лучшая статья CVPR в 2009 г. поступила от этих двух академических учреждений.Первый автор статьи, Хэ Юмин, позже представил остаточную сеть ResNet и, таким образом, выиграл лучшую статью CVPR 2016.

Ши Цзяньпину повезло, когда Чжэцзянский университет высадил с парашютом репатрианта Чжана Чжихуа из Калифорнийского университета в Беркли. По воспоминаниям Ши, Чжан Чжихуа был ученым, посвятившим себя исключительно научным исследованиям, он настоятельно рекомендовал студентам читать книги по математике и не позволял им заниматься чем-либо, связанным с проектом. Позже Чжан Чжихуа преподавал в Шанхайском университете Цзяотун и Пекинском университете, а сейчас является профессором Школы математических наук Пекинского университета.

Под руководством Чжан Чжихуа Ши Цзяньпин связался с компьютерным зрением. Хотя учитель, написавший ей в то время рекомендательное письмо, посоветовал ей изучать более популярные области, такие как интеллектуальный анализ данных, Ши Цзяньпин выбрал Китайский университет Гонконга, который в то время был важным городом в области компьютерного зрения в Китае. , и присоединился к отделу компьютерного зрения, который под руководством профессора Джиа Джиая присоединился к Tencent в 2017 году в качестве выдающегося ученого Youtu Lab.


Перспективы профессора Тан Сяоу

В 2012 году Джеффри Хинтон, профессор Университета Торонто, известный как «отец глубокого обучения», и его ученики взяли AlexNet на конкурс ImageNet ILSVRC Challenge в том же году, и частота ошибок в топ-5 была второй, на целых 10% ниже. . Этот документ, который был включен в NIPS 2012, также считается вехой в начале бума глубокого обучения.

Однако в то время группа Хинтона была не одинока в применении глубокого обучения к компьютерному зрению. В 2011 году Ву Энда, который все еще преподавал в Стэнфордском университете, а также Джефф Дин и Грег Коррадо основали проект Google X в Google, используя 16 000 ядер центрального процессора через глубокую нейронную сеть, так что система может быть распознана только просмотр большого количества видео на Youtube.

В Китае лаборатория Китайского университета Гонконга под руководством профессора Тан Сяоу также начала изучать возможности глубокого обучения распознаванию лиц с 2011 года.

Линь Дахуа сейчас директор лаборатории Китайского университета Гонконга. После окончания Университета науки и технологий Китая в 2005 году Линь Дахуа училась на степень магистра в лаборатории CUHK и имела отношения учитель-ученик с профессором Тан. В 2007 году он получил полную стипендию для получения докторской степени в области компьютерных наук в Массачусетском технологическом институте. В 2014 году профессор Тан пригласил Лин Дахуа вернуться в CUHK для преподавания и стал одним из основателей SenseTime.

По его воспоминаниям, исследования по распознаванию лиц в лаборатории CUHK ведутся с 2000 года. «Когда я был студентом магистратуры в 2005 году, мы в основном использовали подпространственный анализ — метод линейной модели для распознавания лиц, и достигли некоторых результатов, но до глубокого обучения уровень производительности всегда был труднодостижимым для коммерческого использования».

Поворотный момент наступил в 2011 году, когда профессор Дэн Ли (ныне главный специалист по искусственному интеллекту американского финансового гиганта Citadel) из Microsoft Asia Research возглавил применение глубокого обучения в области распознавания речи и добился значительных улучшений производительности. Это заставило профессора Танга, который также работает в Microsoft Asia Research, учуять возможность совершить революцию в области глубокого обучения в области зрения.

Однако переход не из легких. Академическое сообщество в то время крайне скептически относилось к глубокому обучению. Нейронные сети существуют с 1980-х годов и не использовались повторно в течение многих лет, потому что они не имеют преимущества в производительности, а природа нейронных сетей как черный ящик затрудняет понимание исследователями процесса обучения и принятия решений в сети.

Кроме того, отбросить прошлые работы и полностью принять глубокое обучение, потратить много денег на покупку графических процессоров для построения кластеров параллельных вычислений и принять решение о разработке платформы глубокого обучения совершенно самостоятельно, для профессора Танга это требует риска. Многие ученые молодого поколения отметили, что профессор Тан является «дальновидным ученым, и его исследования глубокого обучения в то время заложили основу для многих последующих работ».

Огромные вложения быстро окупились. С 2011 по 2013 год на ICCV и CVPR, двух ведущих конференциях в области компьютерного зрения, группа профессора Танга опубликовала в общей сложности 14 статей по глубокому обучению, что составляет почти половину от общего числа статей по глубокому обучению (29) в этих две конференции в мире.

В июне 2014 года профессор Тан возглавил мультимедийную лабораторию CUHK для публикации серии алгоритмов DeepID, которые достигли точности распознавания лиц 98,52%, превзойдя Facebook и впервые в мире превзойдя возможности распознавания человеческого глаза. Статья также была включена в CVPR 2014.

Хотя этих достижений далеко не достаточно, академическое сообщество видит возможность коммерческого использования распознавания лиц.

CVPR также начал полностью внедрять глубокое обучение в 2014 и 2015 годах. В CVPR 2016, согласно неполной статистике, почти 60% статей связаны с глубоким обучением, а почти 100% устных докладов — с глубоким обучением.

Ши Цзяньпин, который в то время был докторантом Китайского университета Гонконга, увидел разницу между глубоким обучением и предыдущими алгоритмами. «Глубокое обучение действительно многое сделало. В прошлом мы, возможно, популяризировали множество различных технических решений, но все до сих пор крутятся на этом уровне. Особо большого прорыва нет, но глубокое обучение напрямую решает многие проблемы. показатель точности сразу поднялся на ступеньку выше. "

Почувствовав возможности для бизнеса, профессор Тан вместе со своим бывшим учеником Ван Сяоганом и группой лабораторий CUHK основал SenseTime в конце 2014 года. Летом 2015 года Ши Цзяньпин получила докторскую степень и вслед за своими «братьями и сестрами» поступила в Институт науки и технологий SenseTime. Ее старший брат, Сюй Ли, сегодня генеральный директор SenseTime Technology.


От академии к промышленности

Эндрю Нг, профессор Стэнфордского университета и основатель Deeplearning.ai, однажды сказал, что 99% приложений ИИ сегодня основаны на контролируемом обучении. Легко маркируемые данные 2D-изображений, повышенная вычислительная мощность и эволюция алгоритмов глубокого обучения также впервые за последние несколько лет принесли пользу зрительному полю.

С того момента, как вы открываете глаза, компьютерное зрение начинает свою повседневную работу: от распознавания вашего аватара для разблокировки телефона до входа в свой банковский счет; камеры на светофорах следят за пешеходами и превращают их в экран на улице, им не нужно показывать свои рабочие карточки, чтобы войти в офисное здание, а смотреть прямо в камеру у двери для проверки личности...

Глубокое обучение принесло потенциал широкомасштабного коммерческого использования в области визуального восприятия, а также открыло новую сцену для CVPR.

В прошлом задачи в поле зрения не могли быть реализованы в сценариях практического применения, и большая часть исследований ограничивалась лабораторией. Но сегодня поле зрения тесно интегрировано с практикой, и возникли новые проблемы.Отрасль должна использовать исследования, чтобы раздвинуть границы собственного бизнеса, и естественно экспортировать результаты исследований на международные конференции, такие как CVPR.

В последние годы наиболее очевидными вкладчиками были китайские компании, занимающиеся искусственным интеллектом, такие как SenseTime. После того, как 23 статьи были отобраны в CVPR 2017, SenseTime представила 44 статьи в этом году (включая SenseTime, совместную лабораторию Китайского университета Гонконга и SenseTime и другие совместные лаборатории SenseTime), 3 из которых были устными (устный прием CVPR в этом году). рейтинг составляет 1,88%), охватывающий более десятка тем, включая крупномасштабное распределенное обучение, понимание человека и повторную идентификацию пешехода, понимание и анализ сцены автоматического вождения, лежащие в основе визуальные алгоритмы, зрение и естественный язык. Всестороннее понимание, обнаружение объектов, распознавание. и отслеживание, глубокие генеративные модели, понимание видео и поведения и т. д.

Кроме того, была выбрана 21 статья от Tencent AI Lab, 18 от Alibaba, 10 от Tencent Youtu и 8 от Megvii Technology.

Ши Цзяньпин считал, что SenseTime на самом деле не поощряет всех писать статьи, ведь, как коммерческая компания, она по-прежнему старается сделать как можно больше, связанное с реальными проектами продукта. Основная причина большого количества статей в том, что здесь царит атмосфера.

«После того, как все больше и больше студентов поступали в SenseTime или в совместную лабораторию CUHK-Shangtang, рядом с ним были одноклассники, занимающиеся аналогичными делами, и было легче начать работу. В реальном процессе производства у нас есть много идей. могут предложить учащимся несколько экспериментов, и они смогут быстро улучшить свои навыки».

От лучшей статьи в мультимедийной лаборатории CUHK в 2009 году до выбора 44 статей в SenseTime в 2018 году — это результат одной и той же непрерывной цепочки.

«Вклад ресурсов и появление новых проблем должны положительно сказаться на развитии этой области», — сказал Линь Дахуа.

«Конечно, это также принесет некоторые проблемы. Исследования в этой области более утилитарны, чем десять лет назад. некоторые фундаментальные базовые проблемы. Степень относительно снижается. На самом деле, эти топовые конференции в последние годы имеют тенденцию в этом отношении».


«Всегда хочу спонсировать CVPR на год»

После участия в нескольких CVPR Ши Цзяньпин уже не так взволнована, как раньше, но у нее все еще есть новые занятия.

«Когда я раньше разговаривал со своими братьями и сестрами, все они сказали, что у них была мечта: после стольких лет участия в CVPR они всегда хотели приехать и спонсировать один год».

До 2015 года, даже если компания спонсировала CVPR круглый год, это был всего лишь небольшой стенд за пределами афиши. И на протяжении многих лет в списке спонсоров CVPR всегда были американские компании: Google, Microsoft, Amazon A9, IBM...

На CVPR в 2015 году компания по производству искусственного интеллекта под названием Zhitu Technology купила платинового спонсора в том же году и напечатала бренд компании непосредственно на бейдже каждого участника. .

За спонсированием CVPR стоят промышленные соображения, что отражает быстрый рост компьютерного зрения в отрасли и жажду талантов. Только в Китае с 2011 по 2015 год было создано более 30 компаний по распознаванию лиц, а в 2016 году — более 70. Среди них есть компании ИИ, представленные Shangtang Technology, а позже также включают Megvii, Yitu, Yuncong, Yushi, Geling Shentong, Malong Technology и др. BAT также присутствует в области ИИ и компьютерного зрения.Созданные лаборатории: Alibaba создала iDST, Tencent создала Youtu, а Baidu создала лабораторию искусственного интеллекта.

Согласно отчету «Исследование рынка приложений компьютерного зрения в Китае за 2018 год (часть 1)», опубликованному IDC в ​​мае этого года, по состоянию на конец декабря 2017 года объем китайского рынка приложений компьютерного зрения достиг 1,545 млрд юаней, увеличившись на 184,0. % по сравнению с 2016 годом. Среди них правительство, финансы и Интернет — три отрасли с наибольшими расходами на технологии компьютерного зрения; безопасные города в государственной отрасли и аутентификация по лицу в финансовой отрасли — два сценария с наибольшими расходами на технологии.

В то время, когда талантов в области искусственного интеллекта не хватает, такая конференция, как CVPR, похожа на большую ярмарку вакансий. Эти ученые из университетов или талантливые люди в отрасли могут в будущем стать основными исследователями производителей.

Также в 2015 году только что созданная компания Shangtang Technology стала спонсором CVPR самого высокого уровня. Для братьев и сестер Ши Цзяньпина из SenseTime спонсирование CVPR — это не только продвижение бренда, но и желание. После этого SenseTime ежегодно появлялась в списке спонсоров.

Время подошло к 2016 году, CVPR открыла первую выставку (expo) в своей истории. В том году в нем приняли участие около 100 компаний, а в этом году число производителей превысило 115, что также принесло комитету спонсорский доход в размере 2 миллионов долларов.

CVPR 2016 в Caesars Palace в Лас-Вегасе собрал 3500 человек, что на тот момент было рекордным показателем. Выставка проходила в бальном зале Octavius ​​в Caesars Palace и собрала около 100 компаний. Стенд Платинового Спонсора 20*20 футов. Как и на промышленных выставках, компании устанавливают экраны для демонстрации демонстраций или технических продуктов.

В списке спонсоров того года, помимо Shangtang, мы увидели и другие китайские лица: TuSimple, DJI, Baidu, Didi... Эти компании также стали постоянными клиентами CVPR в последние годы.

В то время планировка стенда SenseTime была относительно простой: плакат с каждой стороны, три экрана с демонстрационными примерами посередине и несколько столов сзади.

В 2018 году стенд SenseTime CVPR был совершенно другим, за исключением красного фона, как и раньше, оформление было совершенно другим: стенд был окружен четырьмя видеостенами, а спереди и сзади был установлен экран для демонстрации технологического продукта SenseTime. . . . Неудивительно, что макет SenseTime сегодня охватывает более дюжины областей, от системы распознавания лиц SensePortrait до движка дополненной реальности и платформы SenseAR, до системы мониторинга водителя в автомобиле SenseDrive, слишком много демонстраций, чтобы показать. .

Стенд SenseTime на CVPR 2018

Эти статьи, появившиеся на CVPR в последние несколько лет, теперь воспроизводятся на CVPR в виде демонстраций или даже продуктов, что является своего рода удачей для ученых, занимающихся компьютерным зрением.


Напишите в конце:

«Я действительно хочу испытать это один раз (CVPR)», — это голос многих молодых студентов, изучающих компьютерное зрение, которые еще не испытали CVPR.

Линь Дахуа до сих пор помнит свой первый год участия в CVPR, который был в 2005 году, и тоже выиграл устное выступление. «Я готовился две или три недели и неоднократно повторял это перед учителем. В то время устное время также было относительно долгим, почти 20 минут».

«На самом деле, когда я был студентом, каждый раз, когда я приходил на встречу, я был в более любопытном настроении. Сейчас все совсем по-другому».

Ши Цзяньпин чувствовал то же самое. Когда она приехала в 2011 году, она была еще студенткой и ей все было любопытно. В этом году она привезла с собой нескольких стажеров Шантанга, некоторые из которых приехали сюда впервые и тогда были очень похожи на нее саму.