Шань Шигуан: «Взгляд» на ABCDE ИИ из недавнего прогресса визуальных вычислений

искусственный интеллект
Шань Шигуан: «Взгляд» на ABCDE ИИ из недавнего прогресса визуальных вычислений
Эта статья была изначально создана "AI Frontline", оригинальная ссылка:Шань Шигуан: «Взгляд» на ABCDE ИИ из недавнего прогресса визуальных вычислений
Автор|Шань Шигуан
Источник|Завершение речи AICon
Редактор | Эмили

Всем привет! Я очень рад возможности поделиться с вами на конференции Geekbang AICon. Только что Тайвен упомянул, что все говорят об искусственном интеллекте. На самом деле, несколько лет назад все было наоборот. Я занимаюсь компьютерным зрением и обычно мы этого не делаем Называя себя искусственным интеллектом, теперь он «является» искусственным интеллектом.


Но в широком смысле у искусственного интеллекта очень обширная тема, и компьютерное зрение — одна из них. Так называемое компьютерное зрение, по сути, заключается в том, чтобы надеяться, что робот сможет видеть, как человек, и понимать, что вокруг и что происходит с помощью визуальных средств.


Итак, сегодня, с точки зрения визуального интеллекта, я поделюсь с вами последними достижениями в этой области и технологиями, лежащими в ее основе, а также обсужу, достаточно ли нынешних популярных технологий для будущего развития всего искусственного интеллекта.



Прямо к делу, мы знаем, что изображения и видео, по сути, являются результатом выборки окружающего мира с помощью камеры или видеокамеры.

Затем компьютерное зрение — это технология, которая анализирует видеоконтент, снятый камерами и камерами.Этот процесс очень похож на процесс изучения мира человеческими глазами.Глаза пробуют свет мира посредством светочувствительного восприятия, а затем обрабатывают содержимое.анализируют.

Цифровое изображение в компьютере становится матрицей данных, состоящей из множества пикселей, каждый пиксель имеет три образца красного, зеленого и синего цветов. Компьютерное зрение предназначено для анализа содержимого изображения размером W×H, включая границы, области, события, значения и так далее.

Как мы, люди, видим это? На самом деле наше человеческое «видение» и «видение» — это два разных процесса. «Видение» похоже на съемку фотоаппаратом. Это делается глазом посредством изображения сетчатки: сетчатка имеет большое количество очень сложных и плотных фоторецепторных клеток, которые могут отражать поверхность объекта, чтобы измерить его интенсивность трех компонентов красного, зеленого и синего, а «Видение» — это процесс анализа сигналов в мозгу после того, как глаза собирают сигналы. Эта часть работы выполняется в нашей зрительной коре. Вероятно, есть два пути. , один из них — путь «что», а другой — путь «где».

Давайте посмотрим поближе.Человеческий мозг состоит примерно из 86 миллиардов нервных клеток.Эти нервные клетки разделены на разные области мозга в головном мозге, а области мозга разделены на взаимосвязь различных нервных клеток. Понимание содержания изображения обрабатывается в зрительной коре, и этот процесс включает несколько областей мозга и включает два пути.

Давайте подробнее рассмотрим, что делает каждая из этих нервных клеток. Все мы немного узнали о нервной системе в колледже и средней школе Типичная нервная клетка, особенно сенсорная нервная клетка, обычно имеет такое строение: есть дендрит, похожий на корень дерева, эти дендриты соединены с клеткой тела, и на теле клетки есть аксон, как на стволе дерева.В верхней части ствола дерева есть различные нервные окончания.Одна нервная клетка будет соединена с тысячами других нервных клеток, и эти нервы нервные окончания дендритов для передачи информации во внешний мир. И эта нервная клетка после сбора этой информации принимает решение, либо поддерживает определенное решение, либо противится, либо воздерживается.


Если решения, которые поддерживают чьи-то интересы, генерируют электричество, что произойдет, если они соединятся с аксоном этой нервной клетки для получения сигнала? В 1960-х годах два нейробиолога провели эксперименты около 1959 г. В первичной зрительной коре котенка световые сигналы, полученные фоторецепторными клетками его сетчатки, передавались к первым клеткам в области нейровизуальной коры. , а затем вставили двигатель в аксон нервной клетки, чтобы измерить, при каких условиях нервная клетка срабатывает.Они обнаружили, что когда котенку показывали определенную картинку, нервная клетка срабатывала. Так что же это за картина? Это черный фон со светлой полосой, наклоненной под углом 45 градусов. Когда котенок смотрит на этот рисунок, нервная клетка срабатывает. Если вы дадите ему горизонтальную или вертикальную световую полосу, ячейка не сработает. положение не сбрасывается.


Этот эксперимент является очень новаторским, и все, возможно, не представляли, что в 1980 году кто-то получил Нобелевскую премию на основе этой работы.


На самом деле это говорит нам о том, что каждая нервная клетка в нашем мозгу на самом деле выполняет определенную функцию. Например, только что упомянутая нервная клетка специализируется на обнаружении края наклона под углом 45 градусов. Позже они постепенно обнаружили, что есть и другие нервные клетки, способные обнаруживать другие типы сигналов. В более широком смысле, фактически, мы можем представить, что в нашем мозгу есть даже нервные клетки, которые заинтересованы в нескольких вещах. Для дальнейшего развития нашего мозга могут быть клетки-бабушки. Эта теория называется теорией клеток-бабушек. Конечно, это Теория В конце концов она оказалась неполной, потому что очевидно, что не будет одной клетки, заинтересованной в вашей бабушке, может существовать группа, заинтересованная в вашей бабушке, что является более распределенной системой. В противном случае, когда эта нервная клетка умрет, вы потеряете всю память о своей бабушке, что, очевидно, не будет хорошей системой.


Как эта структура вдохновляет нас на разработку искусственных нейронных сетей? По сути, глубокое обучение — это возрождение многослойных нейронных сетей середины-конца 1980-х годов.

В 1980-х годах или даже ранее ученые-компьютерщики предложили некоторые модели искусственных вычислений с одним нейроном, типичную модель вычислений с искусственными нейронами, очень похожую на только что упомянутые настоящие нейроны в человеческом мозгу. Это также процесс, посредством которого нервная клетка получает несколько входы, взвешивает эти входы и, наконец, отвечает. Возьмем в качестве примера эту нервную клетку, к ней имеется N разных входов, каждый вход будет придавать ей вес, а результат будет получен взвешенным суммированием, а затем судить, превышает ли результат определенный заданный порог, если Если это больше порога, он разрядится, иначе он разрядится.Конечно, мы будем выполнять нелинейную обработку функции, чтобы выполнить нелинейную обработку результата взвешенного суммирования.

Я только что упомянул, что существует большое количество связанных между собой нервных клеток, так что же они делают, когда они взаимосвязаны? Прежде всего, давайте рассмотрим концепцию иерархического рецептивного поля в нервной системе человека или существ.

То есть нервная клетка будет принимать решения на основе большого количества других нервных клеток, что очень похоже на уровень институтов в нашем обществе, от отдельных лиц до семей, до сообществ, поселков, округов, городов, провинций и центрального правительства.По мере повышения уровня узлы на вершине пирамиды имеют большее поле зрения, а выполняемые ими задачи усложняются. Фактически, в неврологии разные цвета представляют размер поля зрения нейрона: красный — очень маленький, а синий — около семи градусов поля зрения.

То есть каждая нервная клетка в мозгу может видеть, что размер картинки разный, а откликом на картинку является площадь пикселя разного размера. При таком пути, чем ближе к нервным клеткам глаза, тем меньше его рецептивное поле, а чем глубже он идет, тем больше его рецептивное поле, его функции варьируются от ярких пятен по краю до все более сложной графики. , и даже в конце мы можем найти некоторые части, такие как колеса обнаружения нервных клеток или глаза.

Мы соответствуем вычислительной модели. Мы только что упомянули, что одна нервная клетка выполняет взвешенное суммирование и нелинейную активацию. Тогда, если эти отдельные нервные клетки соединяются между собой слоями и проходят слой за слоем, это фактически то, что мы называем структурой глубокого обучения. «Глубина» в глубоком обучении означает, что существует много уровней связей.

Таким образом, мы получаем многослойную нейронную сеть.После ввода матрицы данных в сеть мы можем получить ожидаемые результаты.Этот процесс мы называем глубоким обучением «черного ящика».

В области компьютерного зрения наиболее типичным методом глубокого обучения является сверточная нейронная сеть. В 2012 году сверточные нейронные сети добились очень хороших результатов во многих задачах в области компьютерного зрения, и их конструкция очень согласуется с иерархическим процессом извлечения, о котором я только что говорил. На приведенном выше рисунке показана структура сверточной нейронной сети, и ее процесс включает в себя: свертку, выборку, нелинейную активацию, свертку, понижение частоты дискретизации и полное соединение. Среди них свертка — это фактически процесс взвешенного суммирования, и есть процесс полной связи между каждым нейроном в любых двух слоях.

Что такое так называемая свертка в области изображений? По сути, это только что упомянутый процесс взвешенного суммирования. При обработке или анализе изображений разработайте матрицу соответствующих весов фильтра, поместите матрицу на входное изображение и суммируйте ее с весом пикселя в соответствующей позиции.Мы определяем этот процесс как свертка. По сути, свертка — это фильтр, и функция, которую она выполняет на нижнем слое, — это то, что делают нервные клетки упомянутого ранее котенка — извлечение краев, которое мы называем экстрактором локальных признаков.

Конкретный процесс расчета выглядит следующим образом: введите изображение, поскольку оно имеет три канала красного, зеленого и синего, используются три фильтра 5x5, то есть 5x5x3, всего 75 значений, и после извлечения признаков получается карта активации. .

В сочетании с содержимым предыдущего PPT в конце этого слоя получается карта активации размером 28×28×6.

Так называемая «глубина» в глубоком обучении достигается за счет наслоения. Получив карту активации 28x28x6, измените фильтр на 5x5x6 в следующем слое и повторите предыдущую операцию. При непрерывном повторении этого процесса в конечном итоге формируется сверточная нейронная сеть.

По сути, процесс свертки здесь аналогичен фильтрам, использовавшимся в области обработки и понимания изображений в прошлом. Так чем же оно отличается от прошлого?

При извлечении признаков в прошлом использовались искусственно созданные веса.Мы модулировали изменения формы входного сигнала для получения формы выходного сигнала.Каждый весовой коэффициент, используемый в этом процессе, был искусственно рассчитан в соответствии с положительной волной косинуса.

В сверточной нейронной сети каждый вес в 5×5×3 больше не создается искусственно, а изучается посредством обучения нейронной сети, которое сильно отличается от прошлого.


Хотя на нижнем слое изученные нами весовые коэффициенты аналогичны весовым коэффициентам, рассчитанным ранее вручную. Однако из-за возрастающей сложности узоров, формируемых весами, в прошлом уже невозможно было создавать их вручную. Это также большой недостаток ручного метода проектирования в прошлом, то есть трудно разработать очень сложную весовую схему.

На самом деле сверточные нейронные сети не новы и уже применялись в системах распознавания рукописных цифр для почтовых индексов США с очень хорошими результатами. В 1998 году ЛеКун продолжил распознавание английских букв на основе распознавания рукописных цифр, в этой статье была предложена концепция сверточной нейронной сети.

Мы кратко рассмотрим работу 1980 года, вычисления которой очень похожи на сегодняшнюю операцию свертки.

К 1989 году в работе над цифровым распознаванием использовались множественные свертки и иерархические операции, которые сейчас широко используются.

До 1998 года была формально предложена концепция сверточной нейронной сети, и ЛеКун разработал сеть с пятью слоями, включая два сверточных слоя, которая добилась очень хороших результатов в области распознавания символов.

Далее мы представим AlexNet, который принес быстрый прогресс в 2012 году. Ему нужно выучить множество весов, достигающих 60 миллионов параметров. Тем не менее, мы по-прежнему очень уважаем этих двух студентов.

Почему мы должны так восхищаться этими двумя студентами? Поскольку люди, которые раньше занимались машинным обучением, обычно не думают, что такая сложная система хороша, система с 60 миллионами параметров для изучения чрезвычайно сложна.С точки зрения машинного обучения очень легко впасть в состояние перегрузки. -обучение Часто кажется, что на компьютере эффект очень хороший, но как только такая модель будет применена к другим тестовым образцам, эффект станет очень плохим.


Итак, в то время они осмелились попробовать такую ​​сложную модель, и изучение такого количества параметров означало, что для завершения процесса обучения требовалось очень много времени. На самом деле, если эти два докторанта сегодня проводят такое исследование, им нужно всего лишь перекинуть верхнюю половину изображения на один GPU, нижнюю половину на другой GPU, а затем объединить их, но в то время вычислительная мощность GPU еще не такой мощный.

С 1989 по 2015 г. нейронная сеть пережила процесс увеличения количества слоев от самых маленьких до самых больших и слоев от мелких к глубоким.Вообще говоря, ее сложность становится все выше и выше.На самом деле, это также привело к много новых идей в области машинного обучения.


Потому что в прошлом теории сложных моделей в области машинного обучения было недостаточно, раньше даже считалось, что при решении конкретной задачи следует максимально использовать относительно простую модель. оказывается, что относительно сложные модели тоже дают очень хороший эффект.

С 2012 года появилось много новых модулей, включая методы улучшения сверточных слоев.Конечно, мы, китайцы, внесли больший вклад и добились очень хороших результатов в различных задачах компьютерного зрения.

Какие новые изменения вносят эти новые нейронные сети в компьютерное зрение?

Например, в задаче классификации изображений в 2011 году уровень ошибок составлял 26%. В 2012 году уровень ошибок восьмислойной сверточной нейронной сети снизился до 16%, а сейчас составляет около 2%. Уровень ошибок снизился до 1 из 10 примерно за пять лет.

В задаче обнаружения объектов, например обнаружении более 200 видов объектов, таких как люди и автомобили на фотографии, правильный показатель этой задачи без глубокого обучения в 2013 г. составил 23% В 2017 г. с помощью глубокого обучения удалось решить ту же задачу. 73% от правильной скорости, примерно в три раза выше точности улучшения.

В других задачах, таких как обнаружение лиц, обнаружение пешеходов и т. д., мы добились больших успехов.

Наша технология может осуществлять обнаружение, отслеживание, анализ атрибутов пешеходов и транспортных средств и т. д., что также является технологией, используемой в так называемой «системе Sky Eye».

Наша технология беспилотного зрения снимает транспортные средства на земле на высоте 500 метров и использует цвет рамки обнаружения, чтобы различать типы транспортных средств Мы можем точно обнаружить большое количество транспортных средств на мосту.

Мы надеемся, что сможем сегментировать, какая часть изображения является дорогой, деревьями и небом.Благодаря большому развитию глубокого обучения уровень точности увеличился до 86,9%.

Мы называем эту задачу просмотром картинок и разговором.


Дайте машине фото и сгенерируйте предложение для описания содержания на фото.До 2015 года этим почти никто не занимался, и статей почти не видели, но после 2015 появилось много статей для этого.


В некоторых наборах данных даже предложения, сгенерированные машиной, лучше, чем предложения, написанные человеком, что делает невозможным определение того, были ли они сгенерированы машиной или написаны человеком. Он реализует связь между содержанием изображения компьютерного зрения и естественным языком, чтобы мы могли понимать или распознавать различную информацию, такую ​​как изображения, звуки, языки и т. д., и давать нам возможность понимать их в одном и том же семантическом пространстве.

Аналогичный вопрос визуальный вопрос-ответ.После предоставления фото задайте вопрос, а система автоматически отвечает на такие вопросы, как что в тарелке, или кто на снимке в очках и т. д. Так же это можно комбинировать с язык.

Конечно, используемый метод основан на языке, и глубокое обучение также сильно повлияло на машинный перевод. Улучшение, принесенное машинным переводом в 2016 и 2017 годах, очень велико. Эта проблема неотделима от прогресса в области языка. открыть.

Также есть очень интересное приложение, преобразование стиля изображения.

Скажем, мы делаем волосы человека черными, а затем аккуратно возвращаем их обратно, используя генеративно-состязательные сети, мы добились очень хороших результатов по многим проблемам. Слева фотография, введенная системой, а справа сгенерированная этим методом.Видно, что будь то добавление челки или изменение цвета волос, мы можем сделать это с реальным.

Можно даже изменить стиль фотографий, например, превратить картины маслом Моне в фотографии, похожие на фотографии, или превратить лошадь в зебру, или даже превратить фотографию, сделанную зимой, в фотографию, сделанную летом. имеющий прямое отношение.



Следует подчеркнуть, что есть еще одна область, которая сильно пострадала или сильно продвинулась, а именно распознавание лиц.

На приведенном выше рисунке показан быстрый процесс распознавания лиц, который, по сути, заключается в том, чтобы сравнить, являются ли люди на двух фотографиях одним и тем же человеком.


В прошлом мы, вероятно, использовали следующие шаги: первый шаг - найти, где находится лицо, а второй шаг - найти черты лица. Мы превращаем такое фото в вектор, а затем вычисляем сходство соответствующих векторов Y1 и Y2 верхней и нижней фотографии.Если сходство достаточно велико, мы думаем, что это один и тот же человек, в противном случае мы думаем, что это не один и тот же человек, что характерно для процесса распознавания лиц.



До появления глубокого обучения область распознавания лиц всегда была закрытой страной. Люди, которые занимаются распознаванием лиц, в основном не обращают внимания на другие методы компьютерного зрения, потому что эти методы нелегко использовать в распознавании лиц, поэтому мы все создаем свои собственные методы, функции и классификаторы. Но после появления глубокого обучения в каждом модуле всесторонне применяется относительно более общее глубокое обучение, особенно сверточная нейронная сеть.


Вернемся назад и посмотрим на технологию распознавания лиц.

До глубокого обучения существует около трех поколений технологий: первое поколение технологий заключается в том, что люди разрабатывают некоторые функции; второе поколение заключается в том, что люди разрабатывают нехорошо, мы находим линейное преобразование, в одномерном преобразовании каждый воображает, что y =Kx, Для двумерного изображения W становится матрицей, y=Wx, Так называемое преобразование заключается в том, что мы находим преобразование W в пространстве изображения, чтобы в этом пространстве можно было разделить фотографии разных людей, и фотографии одного и того же человека можно разделить.Соберитесь вместе, это наш целевой дизайн для W.


Мы обнаружили, что технология второго поколения была недостаточно хороша, а затем вернулись назад и все еще должны были разработать экстракторы признаков, подобные сверткам или тому, что мы называем фильтрами. Затем на основе выделения искусственных признаков выполняется второй этап линейного преобразования, пытаясь найти низкоразмерное пространство, чтобы фотографии одного и того же человека можно было собрать вместе, а фотографии разных людей можно было разделить. .

После появления глубокого обучения оно стало непосредственным изучением преобразования входного пространства в низкоразмерное пространство признаков. Давайте рассмотрим эти четыре разных метода.Первое поколение на самом деле представляет собой метод, основанный на знаниях, разработанный людьми как экспертами; второе поколение – это метод, основанный на данных, который использует данные для изучения матрицы W-преобразования; В двух поколениях сначала люди разрабатывают некоторые функции и на этой основе изучают преобразование W с помощью данных, а четвертое поколение — это метод, полностью управляемый данными.


После того, как глубокое обучение достигло очень хороших результатов в задачах классификации изображений, FaceBook и Google применили сверточные нейронные сети для извлечения признаков распознавания лиц посредством изучения большого количества данных.Вы можете видеть, что Google принял 8 миллионов человек. в базе данных из 200 миллионов фотографий достигает точности распознавания, превышающей точность распознавания людей в наборе данных LFW.

Если мы оглянемся на прошлые технологии, особенно на технологию третьего поколения, мы использовали искусственно созданные локальные функции, особенно называемые фильтрами.В прошлом обычно использовалось 40 различных ядер свертки 5 × 8, и результаты были следующим образом: Фильтр, показанный слева, а затем сверните изображение. После завершения свертки мы выполним метод слияния. Изображение в левом нижнем углу показывает информацию о весе, которая разработана вручную.


На правом рисунке показана информация о весе, полученная в результате обучения. Мы видим, что фильтры, изученные с помощью глубокого обучения на нижнем уровне, очень похожи на искусственно созданные фильтры, но фильтры на верхнем уровне содержат все больше и больше семантической информации, которую мы может лучше извлекать эффективные функции.

Прогресс, достигнутый глубоким обучением, отражается не только в извлечении признаков. Раньше расположение признаков должно было иметь этап предварительной обработки. Теперь мы обнаруживаем, что человеческий дизайн может быть недостаточно хорош, поэтому мы предоставляем машине учиться самостоятельно. , Узнайте, как выполнять извлечение признаков непосредственно в дополнение к распознаванию лиц.

В этом году есть работа, в которой даже не нужно находить пять (или более) ключевых точек: лицо в кадре распознавания лиц напрямую вводится в нейронную сеть для обучения, и эффект лучше.

Теперь все хорошо понимают применение распознавания лиц в повседневной жизни.Если у вас есть iPhoneX, вы будете знать, что его лицо очень простое в использовании.Его частота ошибок составляет один к десяти тысячам, потому что это самое простое приложение для распознавания лиц.

Почему говорят, что это самое простое приложение для распознавания лиц? Поскольку его датчик и метод регистрации являются самыми простыми сценами для распознавания лиц, его датчик имеет красный, зеленый и синий цвета, и его относительно легко использовать для защиты от подделок и защиты фотографий.


На самом деле распознавание лиц имеет разные сценарии применения, их около трех категорий и с десяток небольших разных сценариев.

Например, в сценарии 1:1 также существуют различные прикладные ситуации для определения того, является ли Чжан Сан Чжан Санем или нет.

Например, когда мы едем на скоростном поезде для проверки удостоверения личности, мы, вероятно, можем заставить 10 000 человек выдавать себя за вас, и один человек может добиться успеха.Правильная скорость различается в разных условиях. Даже включая сетчатку на поверхности, мы удалили сетчатку, чтобы увидеть, являемся ли мы тем же человеком, что и я, и добились хороших результатов в этих аспектах. В качестве другого примера, сделайте фотографию, чтобы увидеть, на кого этот человек больше всего похож.По сравнению с прошлым, текущая точность также значительно улучшилась.


Конечно, есть очень большие различия в зрелости в разных сценариях.Самый сложный сценарий на самом деле 1:N+1. Я не знаю, один ли он из десяти тысяч человек. очень разные в сцене. Но если она используется в сценариях управления доступом и посещаемости устройства, эта технология является очень зрелой. И если он находится в черном списке сценария мониторинга общественной безопасности, то хотя скорость распознавания не так высока, по крайней мере, он доступен.

Позвольте мне показать вам пример, это ворота распознавания лиц Zhongke Shituo. Тысячи людей в блоке могут выполнять функции посещаемости и распознавания лиц, не принося дверную карту. В 2017 году наша система регистрации распознавания лиц Примените его к пяти встречам с участием двух-трех тысяч человек. Тем не менее, есть еще много тем, на которые стоит обратить внимание при распознавании лиц.

Подводя итог, взяв в качестве примера область компьютерного зрения, в прошлом мы использовали ABC, A — алгоритм, B — большие данные и C — высокоинтенсивные вычислительные мощности, что позволило нам добиться все большей и большей точности.

Другими словами, за последние несколько лет мы перешли от ручного проектирования к управляемым большим данным с точки зрения методологии или исследовательской парадигмы.

Следует сказать, что эта методология способствует решению большого класса задач нелинейного отображения в задачах компьютерного зрения. Как показано на рисунке, используя матрицу данных x в качестве входных данных, наша цель состоит в том, чтобы изучить F-функцию, чтобы получить ожидаемое значение y, которое может быть категорией, результатом сегментации, возрастом или каким-либо видом значение, выраженное в виде вектора.


Независимо от того, какая проблема, пока проблема может быть смоделирована, и существует большое количество пар данных x и y или обучающих наборов, теперь есть надежда, что такие проблемы будут решены очень хорошо.


На самом деле глубокое обучение приносит нам больше изменений в мышлении, включая методы решения нелинейных задач, в том числе обучение на основе данных от прошлых искусственно созданных функций к настоящему.


В прошлом он много раз разделял и властвовал, превращая большую проблему в маленькие проблемы, а затем решая маленькие проблемы одну за другой; теперь мы пытаемся уменьшить вмешательство человека в этот процесс и стать сквозным обучением. Еще одно очень важное изменение мышления — это анализ данных.Мы уделяем все больше и больше внимания данным из прошлого, которые оказывают огромное влияние на область компьютерного зрения.

Давайте посмотрим на другой пример обнаружения объектов, мы называем его примером обнаружения дерьма, и это очень реальный случай, над которым мы сейчас работаем.

Есть заказчик, который сделал патрульного робота для патрулирования населенного пункта, владелец сказал, что это бесполезно, но позже они, наконец, нашли болевую точку, и требование было обнаружить собачье дерьмо, чтобы сообщить об уборке и быстро убрать его. Если глубокого обучения нет, наш подход примерно такой:



Во-первых, собираем много фото, ну и конечно нужно делать аннотации, на втором этапе мы тратим много времени на то, чтобы посмотреть, как это выглядит и какого цвета. функции, а затем используйте методы, управляемые данными, для проверки. Если эта функция недостаточно хороша, мы возвращаемся ко второму шагу и повторяем это снова.



Это методология детекции лиц и детекции поведения в прошлом, на это ушло около десяти лет, и это было сделано хорошо, это очень тяжелая задача. Если на обнаружение дерьма уходит год, а на обнаружение пластиковых бутылок год, то нам понадобится много времени.


В эпоху глубокого обучения мы, вероятно, делаем так:



Первый шаг — потратить некоторое время на сбор большого количества фотографий, и люди говорят, почему можно собрать так много, ведь у нас есть краудсорсинг данных. Мы можем собрать большое количество фотографий очень быстро, мы тратим очень короткое время на выбор модели глубокого обучения, а затем передаем ее машине для оптимизации модели параметров.

К счастью, если вы очень опытный специалист, то, получив данные, сможете получить очень хорошие результаты самое раннее через неделю или две, поэтому этот срок сокращается до двух месяцев.

Достаточно ли описанного выше подхода в эпоху после глубокого обучения? Мы думаем, что этого на самом деле недостаточно. Мы увидим, что различных объектов для обнаружения очень много, а видов мусора много. Если бы каждому из нас пришлось это делать, это были бы всевозможные трагедии для тех, кто занимается алгоритмами ИИ.

Может быть, нам нужно несколько минут, чтобы просто собрать фотографии в Интернете. Мы надеемся, что такой процесс может быть завершен за несколько недель или несколько часов. Конечно, этого достаточно?


Мы не думаем, что этого достаточно. Давайте посмотрим на людей. После того, как человек один раз наступит на дерьмо, вероятность того, что он наступит второй раз, очень мала. Мы завершаем такой процесс за несколько секунд.

Итак, для людей это ABCD. A и C вместе составляют мозг. B называет это большим количеством знаний в книге. Нам также нужны данные. Конечно, эти данные определенно не большие данные. Если мы действительно посмотрим на человеческий мозг, мы обнаружим, что человеческий мозг на самом деле нуждается в обучении работе с большими данными, но обучение работе с большими данными уже было завершено нашими предками. Мозг после нашего рождения на самом деле является развитым мозгом. Во время нашего индивидуального роста и развитие, мы используем небольшие данные и знания, накопленные послезавтра, чтобы настроить врожденный эволюционный мозг.


Таким образом, в этом процессе, с методологической точки зрения, начиная с наблюдения за методологией, основанной на больших данных, мы в конечном итоге сформировали методологию, основанную на сочетании данных и знаний.

Итак, является ли компьютерное зрение решенной проблемой?


Мы считаем, что если в настоящее время это решается только с помощью глубокого обучения, такого метода далеко не достаточно.Например, многие задачи компьютерного зрения, такие как обнаружение, классификация, сегментация и т. д., все опираются на большие данные. Если вспомнить только что упомянутое обнаружение целей, то у нас точность обнаружения не достигает 90%, на самом деле у нас десятки тысяч объектов для обнаружения, есть очень серьезная проблема. Если мы полагаемся на данные для решения этой задачи, то китайцев много, а нас группа из десяти человек.Мы также можем решить эту проблему, обнаружив объект, но на самом деле это очень некрасиво и невозможно.


Когда мы смотрим на объекты, есть десятки тысяч объектов, по некоторым объектам мы можем собрать очень большой объем данных, но по некоторым объектам очень сложно собрать большой объем данных или вообще не собрать никаких данных. Мы хотим иметь возможность компьютерного зрения с образцами или без них. Недавно я выступал за то, чтобы мы сделали такое очень красивое дерево, включая наши нулевые данные, слабые данные, малые данные и грязные данные.Конечно, нам также нужно учиться или использовать некоторые знания, чтобы мы могли решить эти небольшая выборка задач обучения.Проблема, взяв за пример обнаружение защитного шлема, в конце концов мы надеемся, что если будет такой подход, мы дадим ему задачу обнаружения, а остальное будет передано ИИ производственная платформа. Сначала он будет получать данные в сети и искать определение защитного шлема. , а затем мы передаем их алгоритму для обучения, что может быть более умным и автоматизированным процессом.


Конечно, с академической точки зрения, на самом деле есть много проблем обучения с малой выборкой, которые необходимо срочно решить, и появилось множество методов, которые можно условно разделить на следующие категории: увеличение данных, обучение с нулевой выборкой, и обучение на малых выборках.

Мы можем генерировать данные с точки зрения данных, таких как реконструкция с помощью физического моделирования или графических методов.

Мы также можем использовать метод, подобный GAN, для увеличения данных путем вывода других.

Мы можем собрать большое количество образцов и помеченных образцов в процессе отслеживания, который представляет собой процесс автоматического сбора образцов.


Теперь, когда мы читаем по губам, мы генерируем текст посредством распознавания речи, а затем получаем помеченные образцы, которые также могут быть автоматически помечены с помощью других модальностей.

Кроме того, существует проблема обучения с нулевым выстрелом.



Идея обучения с нулевым выстрелом заключается в следующем: например, в нашей системе могут быть тигры и лошади, но у нас нет зебр. Теперь позвольте мне сказать вам, можем ли мы обнаружить зебр, Фактически, мы также можем использовать метод обучения с нулевым выстрелом, чтобы завершить связь между образцами пространства изображений и пространством категорий через семантическое пространство.



Зебра находится в семантическом пространстве, потому что она похожа на лошадь и имеет полоски. Хотя система никогда раньше не видела зебр, мы можем распознавать зебр с помощью обучения с нулевой выборкой.Конечно, как мы получаем так называемое семантическое пространство? Он также может быть получен людьми посредством определения атрибутов.



Мы также можем предположить, что семантическое пространство и пространство изображения подобны по структуре, поэтому преобразование между пространством изображения и семантическим пространством может быть реализовано путем изучения семантического пространства.



Конечно, есть больше работы, чтобы сделать с несколькими выстрелами обучения. Так называемая небольшая выборка, независимо от того, имеет ли она семантическое представление или нет семантического представления, поскольку каждая категория имеет небольшой объем данных, мы можем перенести полученные знания на знания, которые никогда раньше не видели, изучив вспомогательный набор данных. , В прошлой категории реализовано обнаружение или распознавание только с небольшим количеством образцов.



Например, здесь объекты имеют большое количество отсчетов, а там только небольшое количество отсчетов, как мы можем обнаруживать и идентифицировать объекты с малым количеством отсчетов? Это может быть достигнуто с помощью трансферного обучения.


Изучая пространство выражения, мы учимся извлекать признак, который может различать различные объекты, в том числе объекты здесь и там, чтобы решить проблему изучения такой небольшой выборки.



Мы можем решить проблему быстрого обучения, используя большие объемы неконтролируемых данных.



В последние два года появилась очень популярная концепция метаобучения, которая представляет собой метод обучения, который можно использовать для решения проблемы малых выборок.


Хотя у нас есть большое количество образцов для каждого типа объектов, мы используем небольшое количество образцов, чтобы узнать, как хорошо учиться, а затем применяем этот метод обучения к обучению с небольшими выборками.


Конечно, на уровне теоретических методов такие технологии, как трансферное обучение и автономное обучение, по-прежнему необходимы для существенного прогресса машинного обучения.



На самом деле, это также очень важно с других точек зрения.Мы видим, что развитие сенсоров может иметь огромное влияние во многих случаях, таких как четыре высоты камеры (HD, высокоскоростная, высокодинамичная, гиперспектральная), в том числе слабые сигналы Обнаружение, активное распознавание и т. д. имеют очень большое влияние на задачи компьютерного зрения.



С точки зрения вычислений, то, как поставить некоторые сложные задачи на терминал, также очень заслуживает нашего внимания.Мы считаем, что в ближайшие три-пять лет на терминале может быть все больше и больше вещей.Даже через три-пять лет многие наши обучающие задачи будут выполняться на стороне, а не на стороне сервера.



Короче говоря, с точки зрения визуального интеллекта у нас есть поговорка: «ИИ, который может видеть, более умен».


Академиям и промышленности срочно необходимо решить проблему небольших выборок и решить проблему масштабируемости, начиная с методологии, основанной на знаниях и данных. Мы знаем, что почти все алгоритмы в отрасли основаны на больших данных по разным вопросам в настоящее время, но, по сути, мы также должны ориентироваться на будущее и закладывать новые возможности.


В этой области есть поговорка, что «данные — это король», будущее не будет таким навсегда, это конец моего обмена, спасибо.

Для большего содержания сухих товаров вы можете обратить внимание на AI Frontline, ID:ai-front, фоновый ответ "AI", "TF", "Большие данные«Вы можете получить серию мини-книг в формате PDF и карт навыков «AI Frontline».