2013-2017: Встречи с китайскими компаниями компьютерного зрения

искусственный интеллект алгоритм компьютерное зрение продукт
2013-2017: Встречи с китайскими компаниями компьютерного зрения

Примечание редактора: эта статья взята изЗнаниеИИ(Knowing_AI), Автор Юй Мяомяо, 36 лет, освобожден с разрешения.

В 2013 году, до вступления в силу нового закона о рекламе, Megvii Technology написала для Face++ следующий текст: «Лучшая платформа облачных вычислений для распознавания лиц».

2014 год был миром «Geling Deep Eyes», и печатные СМИ, порталы и технологические СМИ изо всех сил пытались пригласить его на первую полосу. Говорят, что Сюй Сяопин, Фэн Бо и Шэнь Наньпэн вели жаркие споры о его рыночной стоимости, и «в конце концов они пришли к компромиссу по поводу «средней цифры» в 300 миллиардов долларов США».

В 2015 году Чжоу Си, живущий в Чунцине, незаметно основал Yuncong Technology с целью «делать только человеческие лица и глубоко развивать финансы и безопасность». В этом году SenseTime начала активно трансформироваться из академической в ​​коммерческую, а также тесно связана с несколькими «маленькими гигантами» и создала совместные предприятия.

В 2016 году Megvii получила финансирование в размере 100 миллионов долларов США от CCB International и Foxconn Group. В том же году компания Yitu, всегда сдержанная, расширила свой бизнес с транспортных средств и систем безопасности на медицинские и городские данные.

Сегодня первоначальные намерения Yuncong не изменились, и его бизнес проник в четыре крупнейших государственных банка; Yitu получила 380 миллионов финансирования серии C, а Shangtang привлек беспрецедентные 410 миллионов долларов США, что на один шаг ближе к листингу. .

Это пять лет, которые принадлежат китайским компаниям CV (компьютерное зрение), это их эпоха.

1. 2011-2013: Мы приехали со всего мира в начале, у всех нас светлое будущее

Когда в августе 2011 года была выпущена первая соматосенсорная игра «Crow Coming» для платформы iOS, последним Apple на рынке был iPhone 4 размером с пощечину. Команда, разработавшая эту игру, называется «VisionHacker», и в ней всего три члена: Инь Ци, Тан Вэньбинь и Ян Му.

Никто не ожидал, что именно эта игра положила начало эре CV в Китае. Два месяца спустя они втроем официально учредили Megvii Technology, которая, вероятно, является первой стартап-компанией в области компьютерного зрения в Китае. Через два месяца они успешно получат ангельские инвестиции от Lenovo Star.

«Пришествие вороны», которое отгоняет ворон, покачивая головой, представляет собой простой лист ответов, используемый для демонстрации технологии лица. По сообщениям того времени, эта игра не только выиграла специальный приз 30-го «Кубка вызова» Университета Цинхуа, но и за короткий промежуток времени набрала 400 000 пользователей, «однажды ворвавшись в пятерку лучших в рейтинге App Store. в Китае".

Инь Ци и Тан Вэньбинь, которые являются генеральным директором и техническим директором соответственно, учились в классе Tsinghua Yao 2006 г. Они также стажировались в Microsoft Asia Research (MSRA) на втором курсе, но один был в группе распознавания лиц, а другой другой был в группе поиска изображений. Что касается Ян Му, вице-президента по инженерным вопросам и бывшего обладателя золотой медали Международной олимпиады по информатике, он является младшим из двух.

Втроем они рано сформулировали «трехэтапную стратегию» Megvii: первый шаг — создание облачной сервисной платформы распознавания лиц Face++ с целью распознавания лиц, второй шаг — создание Image++, целью которого является распознавание всего; наконец, именно Глаз машины понимает, что «что видишь, то и получаешь».

Точно так же Чжао Юн также рано определил направление глубокого зрачка Ге Лина. Чтобы компенсировать недостатки аппаратного обеспечения, Инь Ци, отправившийся в лабораторию Columbia CAVE для дальнейших исследований и вернувшийся с учебы, обнаружил, что те, кто стоял на пороге компьютерного зрения, превратились в людей, оставшихся в США более десяти лет и вернулся в Китай с ореолом основных членов Google Glass Чжао Юн.

Чжао Юн, на дюжину лет старше Инь Ци, является выпускником 95-го класса факультета электронной инженерии Университета Фудань. С тех пор, как он впервые встретился со СМИ на CSDN, Чжао Юн был отмечен как зрелый и стабильный «инженер». Интернет-венчурный инвестор 2013 года, который верит в Силиконовую долину, верит в Google и верит в лабораторных исследователей, не принявших крещение в коммерческом обществе, может представлять собой самую передовую технологическую производительность в мире.

Цель Geling Deep Pupil проста: добиться трехмерного изображения с помощью сенсоров, то есть получить информацию о глубине объектов в пространстве с помощью структурированного света через лазерные передатчики и приемники. На основании этого компьютер может идентифицировать и анализировать поведение человека на изображении.

В то же время Чжао Юн также искал партнера внутри Google, два инженера обещали присоединиться, но в последний момент пожалели об этом. В июне этого года Чжао Юн и другие пришли к соучредителю Хэ Бофею. Резюме партнера, представленное Сюй Сяопином, довольно ослепительно, с вкраплениями таких ключевых слов, как Стэнфордская школа бизнеса, Shin Kong Place и президент. Все считают, что это идеальное сочетание деловых и технических талантов, которое, несомненно, вызовет самые яркие искры в мире резюме и даже в мире технологий.

Стоя между ними, Чжу Лун сказал, что выбор начать бизнес — это «чувство». В 2012 году Чжу Лун, работавший научным сотрудником в лаборатории Массачусетского технологического института, решительно вернулся в Китай при поддержке профессора Алана Юилле, директора и куратора Центра визуального распознавания и машинного обучения Калифорнийского университета в Лос-Анджелесе. Он присоединился к своему другу детства Линь Чэньси, чемпиону конкурса ACM Global University Student Programming Contest и соучредителю Yitu Technology.

Это ощущение называется «компьютерное зрение очень близко к индустриализации, очень близко».

2. 2013-2015: Вместе вступить на кажущийся прямым путь

Безопасность — это первый сценарий индустриализации для позиционирования Zhu Long.

Из-за необходимости точно и быстро найти цель из массива данных видеонаблюдения, в области безопасности существует большое количество требований к сравнению видео и изображений, что является естественной почвой для распознавания изображений, особенно технологии распознавания лиц. В то же время продукты безопасности остро нуждаются в интеллекте, а на этом рынке есть и спрос, и покупательная способность.

С технологиями и без клиентов Чжу Лун и Линь Чэньси сидели в офисе в начале своего бизнеса и перечисляли ресурсы и контакты всех в команде.

Как и в большинстве самодельных историй, в начале всегда есть трудности, и после их решения они станут точкой опоры в будущем. Поручив другу друга найти заместителя директора Бюро общественной безопасности, Чжу Лун получил всего три минуты и приговор: «Наш текущий уровень распознавания номерных знаков автомобилей составляет менее 30%, если мы сможем увеличить распознавание до 70%, рассмотрите возможность его использования».

Каждый день фотографируйте автомобили на улице, встречайтесь с полицией и узнавайте о бизнес-процессах. При тестировании два месяца спустя система достигла 90-процентного уровня распознавания как номерного знака, так и марки автомобиля. Секрет этой системы заключается в «лице автомобиля» — она распознает «номерной знак» и «лицо автомобиля» одновременно, что облегчает поиск транспортных средств с номерным знаком.

Как только он вышел в интернет, он столкнулся с кражей со взломом. Отфильтровав марку автомобиля, полиция за десять минут задержала подозреваемого, который скрылся на машине. С тех пор Йиту постучал в дверь системы общественной безопасности. В 2015 году система Dragonfly Eye также получила «Премию Министерства общественной безопасности за научно-технический прогресс».

После распознавания транспортных средств Чжу Лун сосредоточился на распознавании лиц. Говорят, что бюро общественной безопасности одной провинции использовало систему Yitu для сравнения постоянного населения, временного населения и базы данных разыскиваемых преступников.Они сравнили 17 разыскиваемых преступников в один и тот же день и арестовали 3 человек. Позже с тремя жизнями был пойман легендарный настоятель Цзюхуашаня, находившийся в ссылке 16 лет.

Чжоу Си также считает, что «компьютерное зрение очень близко к индустриализации».

С 2006 по 2010 год Чжоу Си выиграл множество чемпионатов в соревнованиях по распознаванию изображений, обучаясь у профессора Хуан Сютао, «отца компьютерного зрения». «После победы в стольких чемпионатах я подумал, что всегда есть что-то значимое, будь то проверка деталей или спасение жизней». президент Китайской академии наук, совершил три специальные поездки в Соединенные Штаты, чтобы пригласить его Профессор Хуан Сютао Этот гордый студент был запущен.

В 2011 году Чжоу Си вернулся в Китай в качестве эксперта «Программы ста талантов» Китайской академии наук, и он присоединился к своим друзьям по колледжу Ли Цзивэю и Вэнь Хао, чтобы сформировать крупнейшую исследовательскую группу по распознаванию лиц Китайской академии наук. наук того времени. Чтобы получить стратегический пилотный научно-технический проект Китайской академии наук, несколько человек переработали продукты, обновили алгоритмы и заменили светочувствительное оборудование, а также несколько месяцев путешествовали между Синьцзяном и Чунцином. В конце концов, команда Чжоу Си победила другие команды, и ее система распознавания лиц также была применена в проекте безопасности Синьцзяна.

Четыре года спустя Чжоу Си, который понял, что «должна быть компания и возможность заниматься продвижением бизнеса, чтобы больше людей могли использовать эту технологию», официально учредил Yuncong Technology. Он неоднократно подчеркивал важность концентрации внимания и уточнял цель Юн Цуна: «Во-первых, содержание исследований должно быть сконцентрировано, хотя все можно сделать, но теперь это все еще хорошее лицо; во-вторых, промышленность должна быть сконцентрирована, и все сферы жизни могут быть Да, мы занимаемся только финансами и безопасностью».

В интервью Geling Shentong с 2014 по 2015 год He Bofei, тогдашний генеральный директор, также неоднократно упоминал, что «безопасность — это более крупный рынок, чем мобильные телефоны». Настойчивость в аппаратных средствах и подробная информация делают Geling Shentong естественным образом подходящим для сценариев обеспечения безопасности: «Мы получили все приказы с площади Тяньаньмэнь, и нам все еще нужно обсудить другие площади одну за другой».

На самом деле безопасность — это вроде бы прямая, но крайне извилистая дорога.

3. 2015-2016: Из академического пространства в мир бизнеса

Причина очень проста, распознавание лиц очень требовательно к сцене. Может ли продукт соответствовать требованиям использования, ядром является не сам алгоритм, а глубокое культивирование сцены.

В 2014 году Megvii стал чемпионом по оценке FDDB (обнаружение лиц), оценке 300-W (позиционирование ключевых точек лица) и оценке LFW (распознавание лиц); Алгоритм распознавания занимает тройку лидеров в оценке LFW. Впоследствии максимальное значение «узнаваемости» в таблице лидеров было увеличено до 99,65%.

Это действительно убедительное доказательство уровня алгоритма, но это всего лишь «теоретическое значение», которое существует в лаборатории между обучающим набором и тестовым набором.

Большая часть данных изображений, проверенных LFW, поступает из Интернета, и в процессе получения лица в реальной жизни существует множество неконтролируемых факторов. Направление и интенсивность света, наличие бороды, изменение прически и выражение лица будут влиять на эффект распознавания. После наложения множества факторов точность, измеренная в реальных условиях, может составлять всего около 75% или даже ниже.

Сама сцена также содержит различные потребности. Например, в «сравнении сертификата и фотографии» более низкое разрешение фотографии удостоверения личности второго поколения или больший промежуток времени съемки повлияют на эффект распознавания. Расследование подозреваемых, индивидуальная идентификация с сотрудничеством и индивидуальная идентификация без сотрудничества имеют разные характеристики сцены.

Это требует сбора большого количества данных сцены в соответствии с различными характеристиками сцены, постоянной отладки параметров, комбинирования алгоритмов, методов и даже использования периферийного оборудования для улучшения эффекта, а также непрерывного повторения для достижения результата. Кроме того, в машиностроении необходимо выполнить требования по объему расчета, задержке, ремонтопригодности и т.д.

И цена. В 2010 г. в общей сложности было листинговано более 40 охранных компаний, в 2014 г. на рынке безопасности происходили масштабные перестановки, ведущие компании уже применяли метод снижения цен для подавления малых и средних компаний. В этом году цена 720P IPC (сетевая камера) упала с тысяч юаней два года назад до 200 юаней.

Хотя мы вступаем в эру разведки, безопасность по-прежнему остается традиционным бизнесом по своей природе. Удовлетворение спроса, поиск способов справиться с ним при одновременном снижении затрат и противодействие зависимости рынка от каналов и брендов — это ни в коем случае не проблема, которую могут решить CV-компании, только что вошедшие в сферу безопасности. Руководители с глубоким академическим образованием вдруг обнаружили, что по сравнению с параметрами алгоритма в лаборатории реальный мир сложен и неуправляем.

В интервью в сентябре 2015 года Чжао Юн признал, что сложность продуктов, сочетающих в себе программное и аппаратное обеспечение, таких как безопасность, превосходит все ожидания: «Мы недооценили сложность контроля качества таких продуктов… В будущем мы думаем, что более сложная задача в бизнесе, как играть большую ценность в бизнесе». Для Greening Shentong, который с самого начала работал в сфере безопасности, выбранное решение заключалось в том, чтобы найти вице-президента из зарегистрированной на бирже охранной компании, который отвечал бы за продажи и бизнес.

Выбор SenseTime состоял в том, чтобы создать совместное предприятие с опытным брендом в области безопасности. Эта компания была основана Тан Сяоу, руководителем мультимедийной лаборатории Китайского университета Гонконга, и Сюй Ли, гордым студентом.Это амбициозная практика академического накопления профессора Тана в первой половине его жизни, столкнувшаяся с бизнесом. Мир.

В июле 2015 года SenseTime и NetPower совместно создали «Deep Web Vision»: SenseTime инвестировала в свои две запатентованные технологии анализа толпы и повторной идентификации (поиска) человека, владея 49% акций; NetPower владела 49% акций; Вложил 50 миллионов юаней, владея 51% акций. Компания в основном развивает бизнес интеллектуальных продуктов безопасности и стремится стать «ведущим поставщиком продуктов безопасности с оригинальными технологиями в области компьютерного зрения и глубокого обучения». В апреле следующего года SenseTime также приобрела темную лошадку безопасности «Xinzhou Ruishi», чтобы компенсировать недостатки своих продуктов с захватом мячей.

Аналогичным образом, в мае 2016 года YITU учредила Shensi Yitu вместе с поставщиком традиционных решений для идентификации, Shensi Electronics, которая предоставила терминальное оборудование и встроенное программное обеспечение, а Yitu предоставила необходимое программное обеспечение. Каждая из сторон владела 49 акциями. %, 51%; Yuncong была связана с поставщиком решений для умного города и зарегистрированной на бирже компанией Jiadu Technology с момента своего официального основания; Megvii создала суббренд Megvii Zhi'an, чтобы сосредоточиться на разработке алгоритмов.

4. 2016-2017: Финансы, медицина, автономное вождение… Куда подует ветер завтрашнего дня?

В 2016 году выручка Shenwang Vision, созданной совместно SenseTime и Netpower, составила 43,93 млн долларов, а гиганта безопасности Hikvision — 31,9 млрд долларов.

По общему признанию, это слишком обширный рынок, чтобы сдаться, но он по-прежнему требует тяжелой работы и немного удачи.

Как и в случае с безопасностью, в финансовом секторе также существует большой спрос на лица. Банкоматы, сканирующие лица, снятие наличных, платежи, распознавание живых тел и интеграция свидетелей... Богатство сценариев его применения и острая необходимость замены повторяющегося ручного труда техническими средствами заставили CV-компании рано начать развертывание в этой области.

В марте 2015 года на выставке Consumer Electronics, Information and Communication Fair (CeBIT) в Ганновере, Германия, Джек Ма улыбнулся в камеру своего мобильного телефона и купил памятную марку Ганновера 1948 года. Эта глобальная демонстрация платежа по лицу не только объявляет о том, что технология распознавания лиц начала продвигаться к коммерческим сценариям, но также является демонстрацией технологии, ориентированной на мир для Megvii: как партнер, ее технология аутентификации при оплате по лицу была признана Ant Financial. .

Шанг Тану было не отстать. Вскоре после того, как кредит был запущен в октябре 2015 года, SenseTime установила с ним тесное сотрудничество.Регистрация, перевод крупных сумм, кредитование и другие ссылки, скорее всего, активируют ссылку для распознавания лиц. Они не только создали совместное предприятие Renshang Dingcheng, но и позже компания стала акционером дочерней компании SenseTime, Jinshi Technology, более известной как LinkFace. Сумасшедшее расширение Jiexibao, насчитывающее более 100 миллионов пользователей, сделало ее самой широко используемой технологией распознавания лиц в мире в то время.

Взгляд Юн Цуна был прикован к берегу. Промышленный и коммерческий банк Китая, Сельскохозяйственный банк Китая, Китайский строительный банк и Банк Китая используют предоставленное ими программное обеспечение для распознавания лиц, которое применяется к таким сценариям, как счетчики, прямой банкинг, мобильный банкинг и онлайн-банкинг. Помимо крупных банков, малые и средние банки, такие как Bank of Xi'an, Bank of Chongqing, Bank of Guiyang и Bank of Hainan, а также крупные поставщики банковских систем, такие как Guangdian Express и Sunyard, также выберите Yuncong в качестве поставщика услуг по распознаванию лиц.

Yitu также предприняла свои собственные попытки: благодаря сотрудничеству с VTM (Virtual Teller Machine, удаленный видеобанкомат) China Merchants Bank она добилась «очистки лица и снятия наличных» почти в 1000 банкоматов в 106 городах.

Подобно безопасности, финансы также имеют традиционную отраслевую сторону, которая также требует времени и удачи. У CV-компаний есть свои представления о том, куда направить свою энергию.

Гэ Лин Шентонг, который когда-то был востребован СМИ, а сейчас находится в трясине, сделал ставку на автономное вождение. Ву Ганша, которого Чжао Юн убедил посвятить себя автономному вождению, стал соучредителем Uisee Technology вместе с ним в конце 2015 года. В апреле 2016 года Greening Shentong инвестировала в Uisee Technology в качестве инвестора, и они стали «братскими компаниями».

В марте этого года Uisee завершила опытную эксплуатацию беспилотных полевых транспортных средств в аэропорту Гуанчжоу Байюнь и начнет мелкосерийное пробное производство во второй половине следующего года. Говорят, что после того, как Хэ Бофей ушел, Гэ Лин Шентун во главе с Чжао Юн продолжил эту практику, и вскоре появится вторая компания, работающая аналогичным образом.

Yituze занимается развитием медицинского обслуживания со второй половины 2016 года, а разработанные ею продукты для вспомогательной диагностики методом КТ грудной клетки были развернуты в десятках специализированных больниц, таких как Чжэцзянская Шэньчжэньская народная больница и онкологическая больница Фуданьского университета. 90%. Буквально сегодня компания Yitu объявила о заключении стратегического партнерства с Детской больницей Чжэцзян и о выпуске интеллектуальной вспомогательной диагностической системы, основанной на костном возрасте детей.

В дополнение к CV Yitu также экспериментирует в области NLP (обработка естественного языка), разрабатывая педиатрическую вспомогательную диагностическую систему «Mim Bear», основанную на массовых случаях, и интеллектуальную систему поиска случаев.

После найма Сунь Цзяня, главного исследователя MSRA (Microsoft Research Asia) в прошлом году, в августе этого года Megvii представила главного научного сотрудника Adobe Ван Цзюэ ответственным за Американский исследовательский институт Megvii. Научно-исследовательский институт дополняет Пекинский научно-исследовательский институт Megvii под руководством Сунь Цзяня, и помимо самостоятельного выполнения части научно-исследовательских и опытно-конструкторских работ, ему также необходимо открывать новые рынки. Попробовав почти все приложения для работы с лицами, такие как платформы аутентификации личности, умные парки и аппаратное обеспечение безопасности MegEye, Megvii также пытается создавать интеллектуальных сервисных роботов.

SenseTime, получившая в июле огромное финансирование в размере $410 млн, ускоряет внедрение технологий и продуктов.Первоначальная идея сосредоточиться на алгоритмах и исследованиях и разработках склоняется в сторону бизнеса. По имеющимся данным, у Shangtang сейчас 5 директоров по продажам, по 10 человек в каждом, всего более 50 продаж.

Говорят, что это запись обид.Пирог приложения компьютерного зрения еще не вырос.О каких обидах идет речь?

Их эпоха только началась.

Согласно отчету «Обзор развития глобальных патентных ресурсов искусственного интеллекта», недавно опубликованному совместно Sequoia и ZhenFu, китайские патенты в области компьютерного зрения вышли на первое место в мире, на их долю приходится 55% текущих глобальных патентных раскрытий.

«Если я увижу, как искусственный интеллект полностью повлияет на мою жизнь в моей жизни, даже если я умру в следующую секунду, я того стою».

«Если я доживу до 70 лет, сколько бы неудач я ни испытал, то, что я делаю, изменит мир».

Хотя реальность CV — это часть, оставшаяся после того, как отброшены прилагательные, это настоящие голоса руководителей компании CV. Именно этот идеал поддерживает их в течение зимы ИИ перед AlphaGo и в следующие пять лет CV.

Теперь еще вопрос, кто будет числиться первым в Мегвии и Шангтанге?

Эта статья и картинки в статье являются оригиналами "Знающих AI Жижи", просьба не перепечатывать без разрешения.