DeepMind провел IQ-тест на модели ИИ, и результат такой

машинное обучение искусственный интеллект Нейронные сети контрольная работа

Редактор планирования | Дебра
Автор | DeepMind
Компиляция и монтаж | Дебра
Руководство по передовой ИИ:Хотя модели нейронных сетей продолжают хорошо справляться с различными проблемами, присущими машинному обучению, их способность рассуждать об абстрактных концепциях оказалась слабой. Основываясь на предыдущих попытках удовлетворить важные функциональные требования к системам обучения общего назначения, в последней статье DeepMind предлагается новый метод измерения способностей к абстрактному мышлению в обучающихся машинах — имитация тестов человеческого IQ и предоставление моделям ИИ «определения коэффициента интеллекта». предлагая некоторые важные идеи о природе обобщения. Итак, каков результат?

Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)

Почему абстрактные рассуждения так важны для общего интеллекта? Рассмотрим знаменитый момент «Эврика» Архимеда (древнегреческое «я вижу», происходящее от фразы, которую ученый Архимед выпалил, чтобы выразить свою радость, когда он открыл теорию плавучести): он заметил, что объем объекта равен к объему кипяченой воды и сформировал понимание объема на концептуальном уровне, что, в свою очередь, привело к методам измерения объема для других объектов неправильной формы.

Мы хотим, чтобы у ИИ были аналогичные возможности. Хотя современные системы смогли победить чемпионов мира в сложных стратегических играх, они часто терпят неудачу в других, казалось бы, простых задачах, особенно в тех, которые требуют открытия и повторного применения абстрактных концепций в новых условиях. Например, даже самые мощные модели ИИ не могут самостоятельно рассуждать, как вычислить площадь квадратов и других фигур, если они умеют только вычислять грани треугольников.

Поэтому для создания более качественных и интеллектуальных систем становится важным понять, как нейронные сети в настоящее время обрабатывают абстрактные концепции, и возможности для улучшения. Для этого мы позаимствовали показатели абстрактных способностей из тестов человеческого IQ.

Создание абстрактного набора данных логического вывода

В

Эта демонстрация иллюстрирует возможности рассуждения модели, и процесс очень интересный, вы можете щелкнуть ссылку, чтобы попробовать его самостоятельно:

Демонстрационная ссылка: https://deepmind.com/blog/measuring-abstract-reasoning/


В (а) подразумеваемое основное правило абстракции состоит в том, что количество графов в каждом столбце растет арифметически. В (b) правило заключается в том, что существует отношение XOR (исключающее логическое ИЛИ) между позициями фигур в каждой строке (поле 3 = XOR (поле 2 — поле 1)). Другие характеристики, такие как тип формы, не считаются факторами. Правильный ответ для обоих: А.

Стандартные тесты человеческого IQ обычно просят испытуемых интерпретировать простые воспринимаемые визуальные сцены с помощью эмпирических принципов, которые они изучают ежедневно. Например, человек-испытатель может усвоить концепцию «роста» в жизни, наблюдая за растениями или строительством зданий, и усвоить сложение (концепцию о том, что определенные атрибуты могут быть добавлены) через уроки математики или увеличение процентов на банковском счете. Затем они могут применить эту концепцию в тестах, чтобы определить количество фигур, их размер и даже определить постоянную тенденцию к углублению цветов.

У нас пока нет возможности внедрить такие методы обучения, как «повседневный опыт», в процесс обучения агентов машинного обучения, а значит, мы не можем просто измерить их способность переводить знания из реального мира в тесты визуального мышления. Тем не менее, мы можем создать эксперимент, в котором можно будет в полной мере использовать тест визуального мышления человека. Наша цель состоит не в изучении передачи знаний из повседневной жизни в задачи визуального мышления (как при тестировании на людях), а в изучении передачи знаний из одного набора контролируемых задач визуального мышления в другой.

Для этого мы создали генератор для создания матричных задач, включающих ряд абстрактных факторов, в том числе «прогрессивные» отношения и такие свойства, как «цвет» и «размер». Хотя в генераторе вопросов используется небольшое количество фоновых факторов низкого уровня, он все же способен генерировать большое количество уникальных вопросов.

Затем мы измеряем способность нашей модели к обобщению для тестирования и опроса, контролируя факторы или комбинации, доступные генератору, для создания различных наборов вопросов для обучения и тестирования модели. Например, мы создаем тренировочный набор, который создает градиенты только при применении к цвету линии; другой тренировочный набор фокусируется на проблеме формы. Если модель хорошо работает на этом тестовом наборе, это доказывает, что она способна рассуждать и применять абстрактную концепцию «роста». Другими словами, даже если он никогда раньше не сталкивался с концепцией «роста», он все равно может точно понять этот закон.

Доказательство реализуемости абстрактных рассуждений

Среди схем обобщения, которые широко используются при оценке машинного обучения, наши обучающие и тестовые данные выбираются из одного и того же базового распределения, и результаты показывают, что все протестированные сети демонстрируют небольшие ошибки обобщения, некоторые из которых имеют точность более 75%. Сеть с наилучшей производительностью явно вычисляет взаимосвязь между различными блоками изображений, параллельно оценивая пригодность каждого потенциального ответа. Мы называем эту архитектуру Wild Relation Network (WReN).

В

Модель очень хорошо обобщает, когда необходимо «интерполировать» значения атрибутов для вывода на основе ранее выставленных значений атрибутов, а также при применении известных абстрактных отношений в комбинациях, с которыми модель не знакома. Однако та же сеть работала хуже в схеме «внешнего обобщения», главным образом потому, что значения атрибутов в тестовом наборе не находились в том же диапазоне, что и значения атрибутов во время обучения. Например, когда при обучении задействованы темные объекты, а при тестировании — только светлые, нейронная сеть ведет себя в убытке. Когда модель обучена применять ранее понятые отношения (например, увеличение количества графиков) к новым атрибутам (например, размеру), ее производительность обобщения также неудовлетворительна.

Наконец, мы замечаем, что,Когда модель обучена не только предсказывать правильный ответ, но и предоставлять «почему» (т. е. конкретные отношения и свойства, которые необходимо учитывать при решении головоломки) для предсказанного ответа, ее способность к обобщению улучшается.Интересно, что данные в левом и правом столбцах таблицы ниже показывают, что точность модели тесно связана с ее способностью рассуждать о правильных отношениях, стоящих за матрицей: когда интерпретация верна, модель выбирает правильный ответ 87 % времени, но когда это неправильно. Показатель точности составляет всего 32%. Это указывает,Когда модели правильно рассуждают об абстрактных концепциях, лежащих в основе задач, они, как правило, достигают более высоких уровней производительности.


Производительность всех моделей (слева) и производительность обобщения модели WReN (справа) с обобщением, упорядоченным по ошибке обобщения с β = 0. (Разница: разница между производительностью теста и проверки)

Более тонкий подход к обобщению

Большая часть недавно опубликованной литературы посвящена преимуществам и недостаткам методов на основе нейронных сетей в решении задач машинного обучения, а выводы обычно отражаются в недостаточной производительности и способности к обобщению. Наши результаты показывают, что общие выводы об обобщении могут не иметь большого практического значения:Протестированные нами нейронные сети показали хорошие результаты в одних схемах обобщения и плохие в других. Его успех зависит от ряда факторов, включая архитектуру используемой модели, была ли модель обучена, а также объяснимую «причину», которую она дала для выбранного ответа. В общем, системы в основном плохо работают, когда сталкиваются с входными атрибутами, выходящим за рамки их накопленного опыта, или когда имеют дело с атрибутами, которые совершенно незнакомы; в этом исследовании мы указываем на четкие идеи для будущей работы в этой ключевой области исследований.

На следующем этапе этого исследования мы изучим стратегии улучшения обобщения (такие как метаобучение) и дополнительно изучим, можно ли и как использовать богатое разнообразие, но общеприменимых индуктивных предубеждений. Мы также надеемся получить более глубокое понимание решений, полученных с помощью модели WReN, посредством обработки матриц в стиле Raven.

об авторе

Дэвид Г. Т. Барретт, Феликс Хилл, Адам Санторо, Ари Моркос, Тимоти Лилликрап

Адрес гитхаба:

https://github.com/deepmind/abstract-reasoning-matrices

Справочные документы:

http://proceedings.mlr.press/v80/santoro18a/santoro18a.pdf

приложение:

http://proceedings.mlr.press/v80/santoro18a/santoro18a-supp.pdf

Оригинальная ссылка:

https://deepmind.com/blog/measuring-abstract-reasoning/