Сердце Машины организовано.
Основная программа IJCAI 2018, крупнейшей конференции по искусственному интеллекту, стартовала вчера в Стокгольме, столице Швеции. Вчера утром Янн ЛеКун, главный научный сотрудник Facebook по искусственному интеллекту и профессор Нью-Йоркского университета, почти час выступал на конференции с речью на тему «Изучение моделей мира: следующий шаг к ИИ», которая привлекла всеобщее внимание. внимание. Эта статья представляет собой краткое введение в выступление Лекуна.
Видео с полным выступлением:
V.QQ.com/small/afraid/com 072…
Янн ЛеКун сказал в начале, что почти все практики машинного обучения в настоящее время используют обучение с учителем на практике: показывают машине большое количество образцов, затем сообщают машине правильный ответ и внутренние параметры, после чего выполняют распознавание изображений и тому подобное задание. В последние несколько лет контролируемое обучение стало чрезвычайно успешным и широко используемым. На следующем рисунке сравниваются характеристики традиционного машинного обучения и глубокого обучения.
Разговоры о глубоком обучении восходят к 1950-м годам, когда сообщество ИИ пыталось построить нейронные сети. Чтобы построить такую немного сложную систему, вам понадобятся две основные операции: линейная взвешенная сумма и нелинейная функция активации. Здесь Янн ЛеКун рассматривает сверточную нейронную сеть LeNet5, которую они предложили в конце 1980-х годов для распознавания цифр, от первоначального распознавания одной цели до распознавания нескольких целей.
Вскоре они создали систему распознавания рукописных документов. В 1995 году они завершили бизнес-систему в AT&T для считывания номеров расчетных счетов. Пройдите процедуру, показанную на рисунке ниже. Янн ЛеКун представил, что это отличный пример успеха в условиях последней волны искусственного интеллекта. После этого люди потеряли интерес к исследованиям нейронных сетей. С одной стороны, это причина точности, но также и то, что во многих областях недостаточно данных для обучения системы обучения.
Затем Янн ЛеКун сообщил, что на самом деле в период 1996-2001 годов он не изучал машинное обучение, а занимался другими вещами, особенно сжатием изображений.
На рисунке ниже показано исследование, проведенное с использованием имитационного обучения после поступления в Нью-Йоркский университет в начале 2000-х годов. Это исследование вдохновило DARPA на разработку программы LAGR.
Затем Янн ЛеКун рассмотрел применение сверточных нейронных сетей в различных задачах, включая обнаружение объектов и семантическую сегментацию для беспилотных автомобилей. Большинство этих задач, основанных на зрении, требуют поддержки сверточных нейронных сетей и, конечно же, поддержки параллельных вычислительных устройств.
Первой сверточной нейронной сетью, получившей широкое внимание и широкое применение, была AlexNet, предложенная в 2012 году. По сравнению с LeNet-5 ее самой большой особенностью является использование более глубоких сверточных сетей и графических процессоров для параллельных операций. AlexNet также применил множество методов для повышения производительности модели, в том числе первое использование функции нелинейной активации ReLU, первое использование Dropout и большое количество дополнений данных для достижения регуляризации сети. В дополнение к этому, AlexNet использует стохастический градиентный спуск с импульсом, затухание веса L2 и ансамблевые методы CNN, которые теперь являются неотъемлемой частью сверточных сетей.
Впоследствии в ImageNet Challenge глубина и производительность сверточных сетей увеличивались год от года. С 2012 по 2016 год сверточные нейронные сети, используемые конкурсантами, продолжали углубляться, и процент ошибок также снижался из года в год.
Как показано ниже, в 2014 году Оксфордский университет предложил еще одну глубокую сверточную сеть VGG-Net, которая имеет меньшие ядра свертки и более глубокие слои, чем AlexNet. В том же году Google предложил GoogLeNet (или Inception-v1), который имеет в общей сложности 22 слоя и содержит очень эффективный модуль Inception. Позже, через 15 лет, глубокая остаточная сеть, предложенная Хэ Юмином и другими, внезапно увеличила глубину сети с дюжины или двадцати слоев до 152 слоев, и производительность была значительно улучшена.
Кроме того, предложенный в прошлом году DenseNet еще больше решил проблему градиента, оставшуюся от ResNet, и выиграл лучшую статью на CVPR 2017. Целью DenseNet является повышение эффективности потока информации и градиентного потока между сетевыми уровнями, а также повышение эффективности параметров. Он также соединяет карту объектов переднего слоя и карту объектов заднего уровня, как ResNet, но DenseNet не суммирует две карты объектов, как ResNet, а напрямую сшивает карты объектов вместе по глубине.
Так почему же сверточные нейронные сети так эффективны в задачах компьютерного зрения? Затем Янн ЛеКун представил представление глубоких сверточных сетей. Он показал, что для данных изображения информация и структура данных являются композиционными на семантическом уровне, а семантика общего изображения состоит из локальных абстрактных признаков. Следовательно, иерархическая структура представления глубокой сети может быть объединена из простых функций в сложные абстрактные функции, в свою очередь, Таким образом, мы можем комбинировать простые функции, такие как сегменты линий, в простые формы, а затем объединять их в функции различных частей сети. изображение.
Сверточные нейронные сети имеют множество приложений для распознавания объектов, обнаружения объектов, семантической сегментации и описания изображений, и многие из этих реализаций основаны на фреймворках глубокого обучения. Затем ЛеКун сосредоточился на PyTorch и Detectron, среди которых PyTorch привлек большое внимание из-за своего динамического графа вычислений, а также является одним из самых быстрорастущих фреймворков.
Как показано ниже, Detectron, открытый исходный код Facebook AI Research, по сути, является лучшей платформой для обнаружения объектов в отрасли. По словам Лекуна, проект был запущен в июле 2016 года и построен на Caffe 2. В настоящее время он поддерживает алгоритмы обнаружения целей и семантической сегментации, включая Mask R-CNN (исследование Хэ Юминга, лучшая статья ICCV 2017) и Focal Loss для моделей Dense Excellent. например, Обнаружение объектов (лучшая студенческая работа ICCV 2017).
Наконец, в качестве краткого изложения сверточных нейронных сетей ЛеКун проводит нас через обзор приложений сверточных нейронных сетей, включая анализ медицинских изображений, автономное вождение, машинный перевод, понимание текста, видеоигры и исследования в других дисциплинах.
Янн ЛеКун сказал, что нынешнему глубокому обучению не хватает способности к рассуждениям, поэтому ключевым направлением развития в будущем является сочетание глубокого обучения и рассуждений.
Люди пробовали это в нескольких направлениях. Например, добавление в сеть модуля расширения памяти, типичная работа которого показана на рисунке ниже, является первым шагом к реализации логического вывода. В модели диалога, благодаря чередованию и прерывистым характеристикам диалога, за счет улучшения памяти это помогает улучшить способность прогнозирования, а затем может достичь долгосрочного и эффективного диалога.
Зачем подчеркивать важность моделирования памяти? При обучении с подкреплением обучение обучению с подкреплением без моделей требует много попыток, чтобы изучить задачу.
Таким образом, такие методы хорошо работают в играх.Например, FAIR, DeepMind, OpenAI и т. д. создали системы искусственного интеллекта, которые во многих играх близки или даже превосходят человека, но эти системы не достигли уровня реальных приложений. .
Поскольку реальная среда намного сложнее, чем среда в игре, как с точки зрения переменной сложности, так и с точки зрения неопределенности, пространство для исследования, с которым сталкиваются системы обучения с подкреплением без моделей, довольно огромно. Более того, в отличие от AlphaGo, которая может моделировать тысячи игр на компьютере, реальную среду нельзя «ускорить», а некоторые эксперименты сопряжены с большими рисками, что сильно ограничивает обучающие ресурсы системы.
Так чего же не хватает искусственному интеллекту? Для контролируемого обучения требуется слишком много образцов, для обучения с подкреплением требуется слишком много попыток, а системам ИИ не хватает здравого смысла.
Янн ЛеКун обобщает недостатки этих двух типов систем: отсутствие фоновых знаний, не зависящих от задачи, отсутствие здравого смысла, отсутствие способности предсказывать последствия действий, отсутствие возможностей долгосрочного планирования и рассуждений. Короче говоря: нет модели мира, нет общих базовых знаний о том, как устроен мир. Говоря более общим языком, современные машины не могут вообразить (представить) мир в своем уме, а управляются (бессознательно) только запахами, как зомби. Моделирование памяти — это только один аспект, создание полного представления о мире — это то, что нам действительно нужно.
Янн ЛеКун заключает, что на уровне реальных приложений, используя существующие методы контролируемого обучения и обучения с подкреплением, мы можем использовать существующие технологии в беспилотных автомобилях, анализе медицинских изображений, персонализированной медицине, языковом переводе, чат-ботах (полезных, но все же глупых), поиск информации, поиск информации, фильтрация информации и другие области добились хорошего прогресса, но все еще не могут достичь здравого смысла, интеллектуальных личных помощников, интеллектуальных чат-ботов, домашних роботов и общего искусственного интеллекта.
Затем Янн ЛеКун отметил, что мы можем черпать вдохновение из того, как учатся дети. Большая часть концептуального познания младенцами внешнего мира осуществляется посредством наблюдения, и лишь небольшая часть — посредством взаимодействия, и зрение может улавливать все более и более полную внешнюю информацию, чем осязание и соматосенсорика. Так как же машина это делает? На самом деле такая ситуация встречается не только у людей, но и у животных. Затем ЛеКун показал изображение младенца и гориллы, наблюдающих за магией, объяснив, что когда модель мира нарушается, то есть когда мы наблюдаем что-то необычное и не соответствует модели мира, наше внимание блокируется. младенцы и гориллы смеются, когда видят магическое шоу, потому что модель мира нарушена).
Затем ЛеКун объясняет решение для текущего состояния обучения с подкреплением: обучение с самоконтролем, которое предсказывает другие части входных данных из одной части. На пространственном уровне он включает завершение изображения, преобразование изображения и т. д., а на временном уровне включает прогнозирование данных временного ряда, прогнозирование видеокадра и т. д.
Янн ЛеКун резюмирует три типа парадигм обучения, а именно обучение с подкреплением, обучение с учителем и обучение с самоконтролем.По сравнению с обучением с подкреплением и обучением с учителем, обучение с самоконтролем рассматривает ввод и вывод как единое целое. Отличие и связь между ними заключается в постепенном увеличении информации обратной связи, усложнении представления модели и типа применимых задач, а также сильно сокращается доля человеческой инженерии, задействованной в задаче, что означает увеличение степени автоматизация.
ЛеКун также использовал метафору пирога, которая часто использовалась раньше, чтобы проиллюстрировать отношения между тремя: раньше зародыш пирога представлял обучение без учителя, но теперь его заменило обучение с самоконтролем.
Хинтон уже много лет исследует область самоконтролируемого обучения, и ЛеКун раньше относился к этому скептически, а теперь наконец соглашается с этим направлением.
Будущее машинного обучения будет не за обучением с учителем и уж точно не за обучением с подкреплением, а за обучением с самоконтролем, включающим глубокие модули.
Итак, следующий вопрос: может ли самоконтролируемое обучение генерировать общие фоновые знания? Дело здесь в том, что модели необходимо вывести фоновые знания, ей нужно вывести текущую задачу, которую она хочет предсказать, из фоновых знаний, собранных из реального мира. Как ЛеКун приводит пример ниже, если получено естественное предложение, модель должна вывести различные фоновые знания о текущей сцене.
Для оптимального управления на основе классической модели нам может потребоваться инициализировать последовательность для моделирования мира и настроить последовательность управления с помощью градиентного спуска для оптимизации целевой функции. Хотя в настоящее время мы можем моделировать мир с помощью обучения с подкреплением, эти модели должны предсказывать не только следующее возможное действие, но и ряд возможных вариантов будущего.
Далее Янн ЛеКун представляет видеопрогнозирование с использованием состязательного обучения. Он впервые продемонстрировал прогностическое обучение без учителя. Люди хорошо умеют предсказывать, но машинам трудно предсказать, что произойдет в будущем. В последние годы было несколько успешных случаев использования «состязательного обучения» в исследованиях, но предстоит еще долгий путь. Янн ЛеКун иллюстрирует на видео пример квартиры в Нью-Йорке.
Прогнозирование видео в пространстве семантической сегментации
Эта часть Янна Лекуна знакомит с текущим состоянием предсказания семантической сегментации.
Latent-Variable Forward Models for Planning and Learning Policies
На диаграмме ниже показана архитектура модели, используемая для вывода действий и скрытых переменных.
Затем Янн Лекун представляет реальный пример.
Наконец, Янн Лекун резюмирует взаимное стремление и продвижение между технологиями и наукой, такими как телескопы и оптика, паровые двигатели и термодинамика, компьютеры и информатика и т. д. И задал вопрос: Что эквивалентно «термодинамике» интеллекта?
- Существуют ли основополагающие принципы искусственного интеллекта и естественного интеллекта?
- Существуют ли простые принципы обучения?
- Является ли мозг набором массивных «хаков», созданных эволюцией?
Ссылка на видео:Woohoo.Facebook.com/IJ Цвет E Цвет 18…