От неврологии к компьютерному зрению — 50 лет разработки резюме

искусственный интеллект алгоритм Нейронные сети компьютерное зрение
От неврологии к компьютерному зрению — 50 лет разработки резюме

О мудрости

Компиляция | Бот

Источник | Данные из Сиэтла

Примечание редактора: Будучи важной отраслью искусственного интеллекта, компьютерное зрение пережило 50 лет взлетов и падений. За эти полвека он черпал пищу из неврологии, моделировал человеческий глаз с помощью камеры, моделировал мозг с помощью компьютера, моделировал мышление с помощью алгоритмов и программ и реализовал использование машин для распознавания изображений и описания сцен. Итак, какова история его развития?

Зрительная функция всегда была сложной задачей для человеческого мозга (а теперь и «компьютерного мозга»), и каждый раз, когда мы открываем глаза, мозг начинает все время сканировать окружающую среду и определять собственное положение. Хотя некоторые изменения в окружающей среде могут влиять на процессы формирования зрения, такие как восприятие глубины, отслеживание объектов, различия в освещении, обнаружение границ и поиск других признаков, мы привыкли к этому и не понимаем тонких изменений, которые происходят за этим. Предыдущие исследователи, возможно, никогда не думали о создании системы, похожей на функцию человеческого мозга, однако за последние 50 лет люди действительно совершили скачок от чисто нейробиологических исследований к использованию компьютеров для рисования изображений.

От неврологии к компьютерному зрению

Травмы Финеаса Гейджа Источник: Web of Science

Нейробиология предоставляет большое количество медицинских случаев для понимания работы мозга, таких как знаменитый случай Финеаса Гейджа: Финеас Гейдж, мастер железнодорожного строительства, был проткнут железной трубой через левую префронтальную долю на работе. такие функции, как движение, язык и интеллект. Все было нормально, но резко изменился темперамент — чрезвычайно редкий случай, который заставил исследователей начать связывать префронтальную долю с высшей психической деятельностью. В 1992 году Кеннет Х. Бриттен в газетеA Comparison of Neuronal and Psychophysical Performanceописывает изменения сигналов мозга при поиске цели в хаотической группе движущихся точек. Эти исследования, хотя и фрагментарные, внесли выдающийся вклад в объяснение того, как работает мозг.

Точно так же компьютерное зрение вдохновлено нейронаукой, и основополагающей работой в этой области была работа Хьюбела и Визеля.

Хьюбел и Визель, получившие Нобелевскую премию по физиологии и медицине в 1981 году «за открытия в области обработки информации в зрительной системе», в конце 1950-х протестировали клетки зрительной коры кошек. В ходе эксперимента они встроили микроэлектроды в клетки зрительной коры головного мозга кошки, а затем воспроизвели на экране свет, тени и графику. Обездвиживая кошачью голову, они могли легко контролировать изображение на сетчатке и проверять, как клетки реагируют на такие узоры, как линии, прямые углы, границы и многое другое. Через усилитель и динамики они даже могли слышать активацию клетки.

Это новое открытие в отношении первичной зрительной коры (кора V1) вызвало в то время сильное изменение, а также заложило основу для более поздних функциональных исследований картирования нейронов.

Скриншот экспериментального видео, при движении светового луча будет генерироваться шум

В ходе этого эксперимента Хьюбел и Визель обнаружили, что клетки зрительной коры реагируют только на определенные детали изображения на сетчатке — еще одна интересная особенность, которую эти клетки естественным образом отображают под разными углами. Как показано на изображении ниже, каждая область коры V1 содержит определенные нейроны, которые по-разному реагируют на определенные углы освещения:

Когда эти клетки реагируют, они теоретически могут создать проекцию реального мира от ветви к стеблю, а это означает, что, поскольку фоторецепторные нейроны реагируют на свет под разными углами одновременно, они фактически рисуют картину реального мира в мозгу. .

Как кодировать и декодировать

Давайте перенесемся во времена Ольсхаузена и Ди Джея Филда.

Спустя почти 30 лет после того, как была предложена теория Хьюбела и Визеля, два исследователя, специализирующиеся на компьютерной нейробиологии, Олсхаузен и Д. Дж. Филд, совершили крупный прорыв в кодировании и декодировании мозга, продвинув работу компьютерного зрения на шаг вперед. Фактически, они также упомянули эксперимент с кошачьей клеткой 30 лет назад.

В отличие от своих предшественников, двое молодых сотрудников, которые в то время все еще работали в Корнельском университете, больше не были ограничены окклюзией светового луча, а были больше обеспокоены тем, как алгоритмы идентифицируют и кодируют особенности изображений. В 1996 году их газетаСтатистика естественных изображений и эффективное кодирование (http://pdfs.semanticscholar.org/e309/e441a38ccee6456bd02e0f1e894e44180d53.pdf)Официально опубликовано.

Это классическая статья.Автор использует алгоритм обучения Хебба с анализом основных компонентов, чтобы указать на ограничения модели в распознавании изображений, то есть она не может изучить локализацию, ориентацию и структуру полосы пропускания для формирования естественного изображения. Основная идея модели Хебба заключается в том, что чем больше раз обучается определенная функция, тем легче ее обнаружить в последующем процессе распознавания, и эксперименты Хьюбела и Визеля доказали, что нейроны зрительной коры реагируют только на определенные функции.

Олсхаузен и Д.Дж. Филд объединили различные точки зрения и считали, что при наличии определенных закономерностей в закодированных естественных изображениях следует разработать модель, уделяющую больше внимания разреженности, путем ослабления обучения и изучения повторяющихся признаков возбуждения, чтобы сеть могла обращать внимание на эти различные функции, чтобы помочь улучшить способность дифференцировать.

Они установили несколько альтернативных моделей для различных особенностей изображения, которые в основном отражены в следующих формулах:

Источник: Статистика естественного изображения и эффективное кодирование.

Эта формула предназначена для расчета наименьшей средней ошибки между фактическим изображением и функцией изображения.

Источник: Статистика естественного изображения и эффективное кодирование.

Эта часть должна заставить алгоритм ограничить коэффициенты функции изображения в сочетании с функцией стоимости.

Источник: Статистика естественного изображения и эффективное кодирование.

Эта часть минимизирует коэффициенты функции изображения посредством градиентного спуска.

Хотя в документе не приводится конкретная модель нейронной сети, которая может распознавать изображения, время появления этой идеи примечательно, учитывая, что Интернет появился в мире только в 1991 году, а их статья была опубликована в 1996 году.

От клеток котенка к математическим моделям

Теперь исследования компьютерного зрения переместились от зрительных клеток коры к математическим моделям.

Олсхаузен и Ди Джей Филд выразили это в конце статьи: «Важной и интересной задачей будущего будет экстраполяция этих принципов на высшие зрительные области коры головного мозга для получения прогнозов». создать нейронную сеть «ветвь-магистраль» на основе низкоуровневой модели и реализовать прогнозирование изображений.

Источник: Статистика естественного изображения и эффективное кодирование.

Как насчет того, чтобы поместить такую ​​картинку в газету для примера? Это выглядит знакомо? Если вы энтузиаст глубокого обучения, вы можете найти матрицы, подобные приведенной выше, во многих статьях за последние несколько лет. Эти матрицы обычно используются в качестве сверточных слоев в сверточных нейронных сетях (CNN), которые, как считается, имитируют реакцию отдельных нейронов на визуальные стимулы.

Источник: Андрей Карпати и Ли Фейфей. Глубокие визуально-семантические сопоставления для создания описаний изображений.

Теперь эта проблема, поставленная в 1996 году, успешно решена, и теперь использование низкоуровневых признаков для прогнозирования изображений стало реальностью.

В 2015 году Андрей Карпати и Фейфей Ли из Стэнфордского университета написали статью под названиемDeep Visual-Semantic Alignments for Generating Image Descriptionsв статье, в которой они демонстрируют рекуррентную нейронную сеть (RNN), предоставляющую подробные описания изображений. Мало того, что он может указать на кошку или идентифицировать собаку по фотографии, он может описать изображения, такие как «мальчик на скейтборде, делающий сальто назад».

Источник: Андрей Карпати и Ли Фейфей. Глубокие визуально-семантические сопоставления для создания описаний изображений.

Хотя модель не идеальна, это впечатляющее улучшение по сравнению с результатами 1968 года.

С конца 1950-х по 2015 год компьютерное зрение замолчало на полвека, по сравнению с долгим путем, эти 50 лет могут быть не так уж и много. Однако наступила эра искусственного интеллекта, и в дальнейшем скорость развития компьютерного зрения будет только увеличиваться. Ему нужно не только распознавать изображения в академической сфере, но и демонстрировать социальный прогресс, вызванный успехом передовых технологий в медицинской визуализации, автономном вождении, прогнозировании эмоций и т. д.

Какие сюрпризы преподнесет нам компьютерное зрение в ближайшие 50 лет?

Оригинальный адрес: https://towardsdatascience.com/from-neuroscience-to-computer-vision-e86a4dea3574

Эта статья составлена ​​Lunzhi, пожалуйста, свяжитесь с этим публичным аккаунтом для авторизации.