Несмотря на то, что машины, называемые «глубокой паутиной», научились общаться с людьми, водить машины, снимать видео, побеждать чемпионов по видеоиграм и го, мечтать, рисовать картинки и совершать научные открытия, людям нетрудно объяснить так называемые « глубокая сеть "Принципы алгоритма обучения". Алгоритмы глубокого обучения не имеют математических принципов, которые можно было бы объяснить, это просто архитектура, которую специалисты по данным используют для моделирования мозга. Что касается того, почему эта архитектура работает, никто не смог объяснить ее ни математически, ни логически.
Как и мозг, глубокие нейронные сети имеют слои нейронов (просто смоделированные с помощью узлов данных). Когда узел данных запускается, он отправляет сигналы другим узлам данных, подключенным к его верхнему уровню. Во время глубокого обучения соединения в сети узлов расширяются или сужаются в зависимости от того, как часто они активируются, точно так же, как нейронная сеть человека. Например, если входными данными является фотография собаки, каждый пиксель можно рассматривать как сигнал, который возбуждает самый нижний узел данных.Эти сигналы непрерывно передаются на верхний уровень через сеть узлов данных, и, наконец, получается вывод . После того, как будет введено большое количество фотографий собак, эти выводы будут иметь аналогичную область на высокоуровневом узле данных, и мы можем вручную установить эту область как «собака». С тех пор, пока это фотография собаки, после прохождения через сеть этого узла данных она с большой вероятностью попадет в эту область. Это самый основной принцип нейронной сети данных. Но что именно представляет собой этот математический принцип, порождающий разум, подобный (или по существу такой же, как) человеческий? Это то, что хотят знать эксперты в сообществе искусственного интеллекта, и даже мы можем узнать из этого, как человеческий мозг понимает реальность.
Возможный ответ появился в прошлом месяце во время видеоконференции на YouTube в Берлине, на которой присутствовало множество экспертов по искусственному интеллекту. В своем выступлении Нафтали Тишби, ученый-компьютерщик и нейробиолог из Еврейского университета в Иерусалиме, предложил новую теорию и подтверждающие доказательства для объяснения принципов глубокого обучения. Тиксуби считает, что нейронные сети глубокого обучения используют метод, называемый «информационным узким местом», для обработки цифровой информации. Эта теория была предложена в 1999 году Тиксуби и двумя другими коллегами. Теория состоит в том, что нейронная сеть пропускает информацию через узкие места, в конечном итоге сохраняя только одну функцию, наиболее соответствующую абстрактному понятию. Эт Тишуби и его ученик Равид Свази Шварц-Зив) разработал эксперименты, чтобы показать, как это происходит.
Тиксуби отметил, что суть нейронной сети глубокого обучения заключается в том, чтобы «искать избыточную информацию». С 1980-х годов Ти Сюби работал над технологией распознавания речи.В процессе исследования он обнаружил, что трудная проблема в этой теме заключается в следующем: какая самая характерная черта словарного запаса и как люди извлекают ее из разных акцентов, шумы и тоны этой информации? Кроме того, как люди извлекают из моря информации абстрактные концепции, которые мы хотим сохранить?
Основатель теории информации Клод Элвуд Шеннон в 1940-х годах установил основу информации как 0 или 1 (да или нет), что, похоже, не показывает разницы между информацией на микроуровне. Но Тишуби сказал: «На самом деле информация связана, и эта связь также может быть оцифрована». Например, A — это набор данных, состоящий из пикселей фотографий собак, а B — это Другой набор данных, этот набор данных состоит из слова « собака". Мы можем получить корреляционные данные от А к В, постоянно упрощая А, не теряя при этом возможности делать выводы из В. Другими словами, это задача оптимизации матрицы.
В 2014 году физики Дэвид Шваб и Панкадж Мехта обнаружили, что сеть глубокого убеждения Джеффри Хинтона, отца нейронных сетей (net) работает в некоторых случаях точно так же, как перенормировка, обычно используемая в физике (перенормировка — это набор методов для обработки с расходимостью в квантовой теории поля). Например, когда они использовали сеть глубокого убеждения для решения проблемы критической точки модели намагничивания, сеть глубокого убеждения и алгоритм перенормировки выполняли одинаковую обработку данных и пришли к одному и тому же выводу. Другими словами, получение информации о релевантности в физике данных и получение информации о релевантности в сетях глубокого обучения не только похожи, по сути, это один и тот же метод.
Конечно, с этим выводом есть большая проблема, то есть все ли данные, которые могут обрабатывать сети глубокого обучения, являются фрактальными (перенормировать можно только фрактальные данные). Например, в реальном мире глазное яблоко находится на лице, а лицо — на теле человека, а фрактальные данные требуют абсолютного сходства между наборами данных и наборами суперданных (такими как снежинки).
Вдохновленные этим открытием, Тишуби и его ученик Нога Заславский предложили улучшенную гипотезу об узком месте информации: сеть глубокого обучения на самом деле представляет собой процесс сжатия зашумленных данных. Затем Тишуби и Свази разработали эксперимент, в котором они использовали небольшую нейронную сеть, чтобы получить ответ 1 или 0 (например, с собакой или без нее), а затем они задали 282 узлам данных случайные силы связи, а затем наблюдали изменения. в сети после каждого ввода нового набора данных и повторял ввод для 3000 наборов данных.
Лежащий в основе алгоритм глубокого обучения, используемый для настройки прочности соединений между узлами данных, представляет собой алгоритм, известный как «стохастический градиентный спуск». Когда новый (обучающий) набор данных поступает из нижней части нейронной сети глубокого обучения, мы можем представить, что сеть переворачивается с ног на голову (сеть в любом случае не переворачивается), и данные стекают случайным образом, как водопад. Точка, в которой водопад сходится, когда он достигает дна, является выводом о том, что сигнал данных находится наверху нейронной сети. И этот вывод можно сопоставить с предложением «да-нет». Например, вы можете установить верхнюю левую половину как «да», а правую — как «нет». этот правый водопад вниз по каналу усиливается, и вероятность продолжения этого нисходящего потока в следующий раз возрастет.
Следуя этому принципу, Тишуби и Свази в своих экспериментах отслеживали ввод и вывод данных узла данных на каждом уровне. Таким образом, можно наблюдать процесс, посредством которого нейронная сеть данных развивает свои логические и абстрактные возможности. Затем они обнаружили, что изменение данных от слоя к слою соответствует предположениям теории узких мест. (Конкретное содержание этого предположения можно получить, выполнив поиск «Тишби, Перейра, Биалек» в большой платной академической электронной библиотеке.) Наиболее важным моментом является степень сжатия и улучшение неосновной информации между слоями узла данных. узкое место данных, предложенное Сюй Би в его ранние годы, согласуется с самой высокой степенью сжатия. Кроме того, Тиксуби и Свази также сделали еще одно интересное открытие, что глубокое обучение делится на две стадии: первая — это короткий период «подгонки». В это время основным поведением нейронной сети данных является классификация и маркировка обучающих данных. Второй этап очень долгий, его основное поведение заключается в сжатии данных, и этот этап также является периодом, когда нейронная сеть данных приобретает логическую способность и способность к абстракции. .
Поскольку стохастический градиентный спуск слоя узла данных нейронной сети с глубоким обучением корректируется, во-первых, общий объем хранимых данных остается примерно таким же или немного увеличивается, как и общий объем входных данных, потому что входные данные затем рассматриваются как сеть узлов данных должна быть совершенно новой, и этот метод хранения облегчает новую классификацию и маркировку данных. Некоторые специалисты по данным считают, что это похоже на то, как люди запоминают, когда сталкиваются с новыми вещами. Затем произошли изменения в том, как нейронные сети глубокого обучения обучаются и сохраняют данные. Он начнет отбрасывать некоторые старые данные и оставлять только значимые данные, относящиеся к заключению, другими словами, он постепенно начинает заботиться о результатах. Это связано с тем, что на каждой итерации стохастического градиентного спуска большая или меньшая корреляция в разных обучающих данных будет постепенно усиливать корреляцию некоторых узлов данных. , и, что более важно, эти нерелевантные данные научат сеть узлов данных оценивать бесполезный контент. Например, на некоторых изображениях собак на заднем плане может быть дом, а на других — нет. Как сеть глубокого обучения, вводя фотографии, она может внезапно понять, что между домами и собаками нет корреляции, а затем получить логическую способность судить о собаках и не-собаках. Иными словами, эксперименты Тишуби и Свази показывают, что цифровые нейронные сети улучшают производительность обобщения на этапе сжатия информации (так называемое нечеткое распознавание или «здравый смысл» для людей), то есть появление логических способностей.
Конечно, это не означает, что узкое место в информации (или нерелевантное сжатие данных) — единственный способ для глубокого обучения достичь производительности обобщения. Некоторые специалисты по данным считают идею Tixup одной из многих важных теорий глубокого обучения, появившихся в последнее время. На самом деле некоторые нейронные сети глубокого обучения не требуют длительной фазы сжатия (или даже не требуют). Вместо этого широко используется метод под названием «ранняя остановка», который уменьшает зависимости сверх потребностей обнаружения сети узлов данных. Например, я сделал программу под названием "Face War", основная цель которой - судить о внешности пользователя. Внешний вид, полученный в результате голосования, может не иметь ничего общего с внешним видом, например, грудь женщин-пользователей на фотографиях. размер, или показывают ли пользователи-мужчины свой пресс на фото и т. д. Поэтому перед процессом обобщения необходимо извлечь основное суждение, чтобы сеть глубокого обучения не установила ненужные ассоциации.Например, независимо от того, что показывает фотография пользователя, вводите только набор данных (пиксели) лицевой части фотографии. Итак, в этом случае, когда не так много «нерелевантной информации», на что полагается сеть глубокого обучения, чтобы делать выводы?
Тайна того, как человеческий мозг просеивает сигналы от наших повседневных чувств и поднимает их до уровня самосознания, вызвала интерес пионеров науки о данных в нейронных сетях глубокого обучения, которые хотят имитировать устройство мозга, чтобы изучить его работу в обратном порядке. , правило. Однако сегодняшние специалисты по ИИ меньше озабочены этим первоначальным желанием, а больше озабочены тем, как применить это явление, которое не полностью (или даже не объяснено вообще) объяснено. Теперь у людей есть возможность создавать узлы данных, которые превосходят нейроны человеческого мозга, и постоянно гонятся за более быстрыми и крупными цифровыми нейронными сетями, но соответствует ли это естественной биологической рациональности? Должны ли мы тратить больше энергии на изучение принципов глубоких нейронных сетей перед дальнейшим развитием?
Очевидно, что способность человека к обучению не совсем такая же, как у нейронной сети с данными глубокого обучения. Например, ребенку, который только учится читать, не нужно читать тысячи одинаковых слов, чтобы понять разницу между ним и другими словами. Во многих случаях людям нужно прочитать его только один раз, чтобы понять разницу между этим словом и другими словами. Кроме того, вам не нужно видеть человека сотни раз, чтобы отличить человека, вы даже можете увидеть его или ее один раз и знать, что он или она является личностью, а также вы можете напрямую отличить его или ее от других людей. Конечно, это не совсем невозможно для сетей глубокого обучения. Один из способов состоит в том, чтобы деградировать и разлагать вещи, например, классифицировать черты лица человека по лицу, сравнивать соответствие с другими чертами лица, а затем сопоставлять общую структуру и пропорции. Это может значительно сократить время обучения сетей глубокого обучения. Но даже в этом случае трудно достичь человеческой способности суждения.
Выдающиеся ученые в области искусственного интеллекта в будущем должны быть учеными, которые могут общаться в двух академических кругах науки о человеческом мозге и цифровой науки. Независимо от того, может ли она объяснить явление в любой из этих областей, теория информационного узкого места Ти Сюби сыграла огромную роль в развитии научных кругов. Ти Сюби посчитал, что сеть глубокого обучения больше всего подходит для решения задачи устранения шума во входном сигнале, а также решения задач имитации естественного зрения и распознавания речи. Это именно то, на что способен наш мозг. В то же время как человеческие нейронные сети, так и искусственные цифровые нейронные сети делают неопределенные выводы, что делает невозможным устранение небольших различий. Например, логические задачи, которые очень чувствительны к изменениям одной переменной, не подходят для решения глубокого обучения, такие как дискретные задачи и задачи шифрования. Согласно одному примеру, я не думаю, что глубокое обучение станет супер-хакером искусственного интеллекта, как говорится во многих фильмах или романах. Взлом паролей и поиск лазеек в системах — это не то, в чем хорошо работает глубокое обучение (и не то, в чем хороши люди).
Наконец, процесс обобщения глубокого обучения заключается в том, чтобы оставить самые важные моменты после просмотра бесчисленной информации, в то время как другая информация больше недоступна, как текущая вода. Разве это не очень поэтичный выбор? Мы, люди, ищем знакомые лица в толпе и находим покой в хаотичном мире.Возможно, только забыв эти неважные тривиальные вещи, мы можем открыть основную красоту жизни.