Сунчунь Чжу Калифорнийский университет в Лос-Анджелесе
Профессор статистики и информатики
Директор Центра зрения, познания, обучения и автономной робототехники
VCLA@UCLA
2 ноября 2017 г. Опубликовано в публичном аккаунте WeChat «Visual Quest».
содержание
введение
Раздел 1 Статус-кво: взгляните в лицо реальности
Раздел 2 Будущее: вдохновение от вороны
Раздел 3 История: от «Пяти гегемонов периода Весны и Осени» до «Шести героев периода Сражающихся царств».
Раздел 4 Унификация: парадигма «Малые данные, большие задачи» и когнитивная архитектура
Раздел 5 Дисциплина 1: Вычислительное зрение --- От «глубокого» к «темному»
Раздел 6. Дисциплина 2: Когнитивное мышление --- Вход во внутренний мир
Раздел 7 Тема 3: Языковое общение --- Когнитивные основы общения
Раздел 8 Дисциплина 4: Игровая этика --- Приобретение и распространение человеческих ценностей
Раздел IX. Дисциплина V. Робототехника. Создание платформы для больших задач.
Раздел 10. Дисциплина 6: Машинное обучение --- Предельный предел обучения и «проблема удержания».
Резюме раздела 11: Наука об интеллекте --- Единство Ньютона и Дарвина
Приложение Вопросы и ответы и интерактивные выдержки из отчетного заседания Института автоматики Китайской академии наук
Благодарность
введение
После почти 30 лет молчания термин «искусственный интеллект» за последние два года «перевернулся». ценится правительством и пользуется спросом у инвестиционного сообщества. В результате пресс-конференции и форумы на высшем уровне следовали одна за другой, стратегический план правительства был обнародован, а всевозможные новости были переполнены, провозглашая наступление эры «разум превыше всего».
Что такое искусственный интеллект? На какой стадии находятся текущие исследования? Как она будет развиваться в будущем? Это общая проблема. Поскольку искусственный интеллект охватывает широкий спектр дисциплин и технологий, полностью понять и понять искусственный интеллект за короткий промежуток времени — очень сложная задача, не говоря уже о непрофессионалах, даже для исследователей отрасли.
Поэтому сейчас многие пропаганда и принятие решений спешат впереди признания, что неизбежно приводит к некоторой путанице мысли и общественного мнения.
С тех пор как я начал использовать WeChat в прошлом году, я часто получаю шокирующие заголовки новостей от друзей и родственников. Я обнаружил, что многие разговоры лишены научной основы и превратились в «развлекательный ИИ». Доктор физиков, изучавший черные дыры в 1970-х годах, никогда не занимался искусственным интеллектом, но время от времени появляется, чтобы предсказать конец человечества. Отделы по связям с общественностью и СМИ некоторых компаний пускают в ход свое воображение, чтобы на каждом шагу обозначать невиновных исследователей «хозяевами» и «мастерами». В последнее время существительные иссякают. В начале сентября в отчете назвали приглашенного американского профессора «дедушкой искусственного интеллекта». Профессор действительно является ведущей фигурой в области машинного обучения, но искусственный интеллект появился в 1956 году, а профессор только родился. Более того, машинное обучение — это только одна область искусственного интеллекта, и он не занимался большинством других важных областей, таких как зрение, язык и робототехника, поэтому такое название абсурдно (я не обязательно знаю это название). В то время я задавался вопросом, выйдет ли кто-нибудь с такими титулами, как «Патриарх Бодхидхарма, Будда Татхагата, Король павлинов, Тайшан Лаоцзюнь, Нефритовый император». В начале октября я услышал, что была создана Академия Бодхидхармы, претендующая на то, чтобы сокрушить Соединенные Штаты, и общественное мнение было сенсационным! Не говоря уже о том, что обычные люди беспокоятся о потере работы, даже некоторые исследователи в отрасли были в панике и спрашивали меня, что я думаю.
Мое мнение простое: большинство людей, которые пишут рассказы и хайп-пропаганду, плохо разбираются в искусственном интеллекте. Это похоже на коммуникативную игру, в которую играют молодые люди: искаженная информация шаг за шагом усиливается в процессе многократных передач и, наконец, передается обратно, пугая самого себя. Следующий пример иллюстрирует степень общественного непонимания. В сентябре я был в машине и услышал, как по радио обсуждали искусственный интеллект. Два ведущих говорили о компании Facebook из Силиконовой долины.Один программист вдруг обнаружил, что два компьютера в процессе общения изобрели новый язык. Видя, как «сверхразум» быстро итерируется и обновляется за считанные секунды (добавляю: это похоже на первые секунды Большого взрыва), программисты приходят в ужас. У людей остался только один последний шаг, чтобы спасти себя: «Не стой на месте, быстро отключи питание!...» Наконец, людей оттащили от ворот ада.
Вернемся к теме этой статьи. Есть объективные причины, по которым сложно полностью понять искусственный интеллект.
Во-первых, искусственный интеллект — это очень широкая область.. В настоящее время искусственный интеллект охватывает множество крупных дисциплин, и я суммирую их в шесть:
(1) Компьютерное зрение (на данный момент включены распознавание образов, обработка изображений и другие вопросы),
(2) понимание естественного языка и общение (на данный момент включены распознавание и синтез речи, включая диалог),
(3) Познание и рассуждение (включая различные физические и социальные здравые смыслы),
(4) Робототехника (механика, управление, дизайн, планирование движения, планирование миссии и т. д.),
(5) Игра и этика (взаимодействие, противостояние и сотрудничество мультиагентных агентов, робототехника и социальная интеграция и др.).
(6) Машинное обучение (различное статистическое моделирование, аналитические инструменты и вычислительные методы),
Эти области все еще относительно разбросаны, и в настоящее время они находятся в процессе перекрестного развития и объединения. В просторечии я называю их «Шесть героев периода Воюющих царств». Китайская история изначально была «Семью героями периода Воюющих царств». сам по себе баланс игры. Конечная цель состоит в том, чтобы сформировать законченную научную систему, от текущей шумной инженерной практики до настоящей Науки Разума.
Поскольку дисциплины относительно разбросаны, большинство докторов, профессоров и других специалистов, занимающихся смежными исследованиями, зачастую занимаются только одной из перечисленных выше дисциплин или даже долгое время сосредотачиваются на конкретных вопросах в определенной дисциплине. Например, распознавание лиц — это небольшая проблема в дисциплине компьютерного зрения, а глубокое обучение относится к популярному жанру в дисциплине машинного обучения. Сейчас многие люди приравнивают глубокое обучение к искусственному интеллекту, что равносильно тому, чтобы называть город уровня префектуры всей страной, что определенно неуместно. После прочтения этого студенты, которые занимаются глубоким обучением, должны быть неубеждены или очень злы. Не волнуйтесь, прочитав следующий контент, вы обнаружите, что независимо от того, сколько слоев имеет сеть CNN, она все еще очень поверхностна, а связанные с ней задачи по-прежнему очень малы.
На искусственный интеллект смотрят исследователи в самых разных областях.По индийской пословице его можно назвать "слепой прикасается к слону", но это явно оскорбительно, или китайский писатель Су Ши хорошо сказал, когда был в Лушане:
«Взгляни на хребет и в сторону в вершину,Расстояние другое.
Я не знаю истинного лица горы Лу, только потому, что нахожусь на этой горе. "
Во-вторых, искусственный интеллект.нарушение развития. В связи с историческим развитием с 1980-х годов искусственный интеллект был дифференцирован на несколько вышеупомянутых основных дисциплин и развивался независимо друг от друга, и эти дисциплины в основном отказались от методов исследования, основанных на логических рассуждениях и эвристическом поиске в предыдущие 30 лет, и заменили их Методами вероятности и статистики (моделирование, обучение). Среди представителей старшего поколения, оставшихся в традиционной области искусственного интеллекта (логическое мышление, поисковая игра, экспертная система и т. д.), не разветвляясь на вышеперечисленные субдисциплины, действительно есть много глобальных перспектив, но большинство из них ушли из жизни или ушли на пенсию. . Лишь очень немногие из них, проницательно переняли или возглавили методы статистики вероятностей и обучения и стали академическими лидерами в 1980-х и 1990-х годах. Новое поколение ( После 1980-х годов очень мало исследователей, которые остаются в традиционных дисциплинах искусственного интеллекта, и они не понимают конкретных проблем в тех дисциплинах, которые были дифференцированы.
в этом полеразличатьс историческимВстречаться, что объективно вызвало нынешнюю ситуацию «хаотичного» мышления и точек зрения в академических и промышленных кругах, а путаница в средствах массовой информации еще более усилилась. Однако, с положительной точки зрения, такая ситуация действительно предоставляет хорошую возможность и широкую площадку для построения карьеры молодого поколения исследователей и аспирантов.
Ввиду этих явлений мои коллеги и коллеги по редакции Visual Quest неоднократно уговаривали меня написать рецензию и введение в искусственный интеллект. Я буду избегать этого и просто использую свой 30-летний опыт чтения и междисциплинарных исследований, наблюдений и рассуждений, чтобы рассказать о том, что такое искусственный интеллект, его исследовательском статусе, задачах и рамках, а также о том, как двигаться к единству.
Моя мотивация для написания этой статьи заключается в трех моментах:
(1) Расширить кругозор для аспирантов и молодых ученых, заинтересованных в том, чтобы заняться исследованиями в области искусственного интеллекта.
(2) Для тех, кто интересуется искусственным интеллектом и любит думать, сделайте передовое и всеобъемлющее введение.
(3) Для широкой публики и представителей СМИ сделайте научно-популярный материал об искусственном интеллекте, чтобы прояснить некоторые факты.
Происхождение этой статьи: техническое содержание этой статьи взято из отчетов о лекциях, которые я читал во многих университетах и научно-исследовательских институтах в 2014 году. В июле 2017 года доктор Шэнь Сянъян из Microsoft попросил меня рассказать об искусственном интеллекте на вечеринке друзей, и я добавил несколько популярных материалов. В сентябре 2017 года по просьбе Тань Тьеню и Ван Юньхуна я посетил семинар по взаимодействию человека с компьютером в области искусственного интеллекта, который проводился Институтом автоматизации Китайской академии наук, и они направили стенографистку и докторанта, чтобы они разобрались с первым наброском. этой статьи. Эта статья была бы невозможна без их энтузиазма. Первоначальная лекция длилась два с половиной часа, а эта статья была сокращена и изменена. Еще сорок тысяч слов плюс множество иллюстраций и примеров. Извините, больше сжатие невозможно.
Аннотация этой статьи: первые четыре раздела статьи кратко рассказывают о том, что такое искусственный интеллект, и о текущем историческом периоде, а последние шесть разделов посвящены ключевым исследовательским вопросам и трудностям шести дисциплин, а также тем, какие передовые темы ждут молодых людей для изучения. Последний раздел Обсудите, является ли искусственный интеллект полноценной научной системой, и если да, то каким образом.
Как сказал Цюй Цзы: «Дорога длинная и длинная, я буду ходить вверх и вниз и искать ее».
Раздел 1 Оценка текущей ситуации: взгляните в лицо реальности
Проще говоря, исследование искусственного интеллекта заключается в расширении и повышении способности и эффективности людей в различных задачах преобразования природы и управления обществом с помощью интеллектуальных машин и, наконец, в создании общества, в котором люди и машины гармонично сосуществуют. Упомянутая здесь интеллектуальная машина может быть виртуальным или физическим роботом. В отличие от различных инструментов и машин, созданных людьми на протяжении тысячелетий, интеллектуальные машины обладают автономным восприятием, познанием, принятием решений, обучением, исполнением и возможностями социального сотрудничества в соответствии с человеческими эмоциями, этикой и моралью.
Помимо фантазий научной фантастики, давайте поговорим о нескольких недавних конкретных приложениях. Мы много слышали о беспилотном вождении, давайте сначала поговорим о военном применении. Отряд или оперативная группа в армии, например, сейчас требуют семь человек, но в будущем ее можно сократить до пяти человек, а двух других заменить машинами. Во-вторых, роботы могут использоваться при оказании помощи при стихийных бедствиях и некоторых опасных сценариях, таких как места утечки ядерных материалов, куда люди не могут попасть и должны полагаться на роботов. Есть много медицинских примеров: интеллектуальные протезы или экзоскелеты взаимодействуют с человеческим мозгом и сигналами тела, чтобы улучшить контроль над движениями человека и помочь людям с ограниченными возможностями жить лучше. Кроме того, есть сервисные роботы, такие как уход на дому и другие услуги.
Однако прогресс на этом фронте был далеко не удовлетворительным. В прошлом Япония часто демонстрировала, что их роботы умеют танцевать, а Китай также использовал их для выступления на вечеринке в честь Праздника Весны. Это все были заранее написанные программы, и в результате ядерная радиационная авария на Фукусиме разом выявила все проблемы и обнаружила, что у их роботов нет никаких хитростей. США тоже прислали роботов, и тоже было много проблем. Например, для простой технической задачи робот заехал на место аварии и протащил за собой длинный кабель для подачи питания и передачи данных, в результате кабель запутался и не мог двигаться. Однажды коллега полушутя сказал за обеденным столом, что при нынешних технологиях, чтобы заставить робота справляться с проблемами как человек в течение длительного времени, ему, возможно, придется иметь две собственные миниатюрные атомные электростанции, одна для выработки энергии для других. приводные машины и вычислительное оборудование, а другие приводы системы охлаждения выработки электроэнергии. Кстати, потребляемая мощность человеческого мозга составляет около 10-25 Вт.
Увидев это, кто-то хочет спросить.Профессор ошибается.Мы наглядно видим потрясающую производительность американских роботов в интернете. Например, в этой демонстрации Boston Dynamics их роботы не могут ударить ногами независимо от того, как они ударяют ногами, или они могут самостоятельно встать после удара ногами, и они могут ходить, как летающие в диких джунглях, и есть несколько eDonkey и Big Dog тоже крутые. Эта компания изначально была разработана Министерством обороны США для поддержки разработки роботов, но после приобретения Google больше не занимается оборонными проектами. Однако Google обнаружил, что помимо сжигания денег, в настоящее время он не может найти выход для бизнеса, и недавно он был выставлен на продажу. Вы можете спросить, разве Google не великолепен? Разве игра DeepMind в го не возбуждала китайцев снова и снова? Есть бросающее вызов небу тело робота и бросающий вызов небу мозг робота, все они принадлежат одной компании, так почему бы не создать продукт с искусственным интеллектом? Почему они не воюют день и ночь?
Искусственный интеллект так долго раскручивали, вы оглядываетесь и видите роботов, идущих по улице? нет. Вы видите, как искусственный интеллект входит в дом? На самом деле еще нет. Единственное, с чем вы, возможно, сталкивались напрямую, — это с чат-ботом, обученным на основе больших данных и глубокого обучения, и, возможно, вы общались с ним в чате. По словам жителей моего родного города Хубэй, это называется «вытягивание белого» — говоря о просторечии. Если вы не так на него злитесь, то либо вы очень заняты, либо вы действительно терпеливы.
Чтобы проверить текущее состояние технологии, Агентство перспективных исследований Министерства обороны США провело конкурс DARPA Robot Challenge (DRC) в Помоне, пригороде Лос-Анджелеса, в 2015 году, предложив вознаграждение в размере 2 миллионов долларов за первое место в соревновании. В этом соревновании участвует много команд. На снимке выше изображена команда Корейского университета науки и технологий, занявшая первое место. Справа их робот открывает дверь, чтобы выйти на сцену для «помощи при стихийных бедствиях». Вся игровая сцена устроена как голливудская студия, с тремя копиями сцены, каждая из которых представляет собой дымные сцены оказания помощи при стихийных бедствиях. Робот сам переезжает машину, выходит из машины, открывает дверь, берет инструменты, закрывает вентиль, открывает дыру в стене и, наконец, преодолевает кирпичное препятствие и поднимается по лестнице. Я взял студентов посмотреть его, потому что у нас был большой проект DARPA, и директор проекта был в нем судьей. В то время мое первое впечатление было еще очень шокирующим, я чувствовал себя хорошо. Позже я узнал, что все движения робота в основном контролировались людьми. У каждого шага и каждой сцены есть интерфейс, и каждый студент управляет модулем. Восприятие, познание и действие управляются людьми. То есть у этого робота нет собственного восприятия, познания, рассуждения и планирования. В результате можно увидеть невероятные вещи. Например, когда робот хватается за дверную ручку, потому что он полагается на восприятие человека на заднем плане, ошибка составляет один сантиметр, и он ее не берет; или когда он немного ступает по лестнице, его центр гравитация теряет равновесие, но управляет спиной, у ученика нет сигнала гравитационного восприятия, и когда он теряет равновесие, он не успевает среагировать. Подумайте об этом, мы, люди, можем сохранять равновесие, когда шагаем и скользим, потому что все ваше тело реагирует вместе, но ученик просто наблюдал издалека и не мог среагировать, поэтому робот пошатнулся.
Это все еще простая сцена. Во-первых, вся сцена задается заранее, и каждая команда неоднократно тренировалась. Если это сцена, которая еще не встречалась и требует умного решения? Во-вторых, вся сцена еще не появилась.Если появятся другие люди и им потребуется социальная деятельность (например, языковое общение, разделение труда и кооперация), то сложность будет на два порядка.
На самом деле, если он полностью контролируется людьми, все роботы теперь могут выполнять операции, а хирургические роботы уже популярны. На картинке выше показан проект, в котором моя лаборатория сотрудничала с компанией: роботы могут открывать молнии, осматривать посылки, извлекать бомбы плоскогубцами и т. д., и все это достижимо. В современных роботах механическое управление очень хорошее, но не совсем эффективное. Например, упомянутый выше робот e-Donkey от Boston Dynamics очень устойчив на горных дорогах, но его мотор шумит и грохочет, что оголяет его цели на поле боя. Особенно дежурство и разведка ночью, как можно такой шум поднимать?
Конкурс DRC в 2015 году временно приостановил создание крупных проектов в области исследований робототехники в США. На первый взгляд неспециалисты (в том числе члены Конгресса) думают, что эта проблема решена и ее следует оставить для развития компании; эксперты видят трудности внутри и думают, что без больших средств на ее решение она не сможет ее решить. какое-то время. Этот пробел в понимании в какой-то мере является предпосылкой наступления «зимы научных исследований».
Подводя итог, можно сказать, что ключевой проблемой современного искусственного интеллекта и роботов является отсутствиездравый смысл физикииздравый смысл общества"Здравый смысл". Это самое большое препятствие для исследований ИИ. Так что же такое здравый смысл? Здравый смысл является самым основным знанием для нашего существования в этом мире и обществе: (1) он используется чаще всего; (2) его можно вывести из других фактов, вывести и помочь получить другие знания. Это основная тема решения исследований искусственного интеллекта. С 2010 года я возглавляю междисциплинарную команду, занимающуюся приобретением и обоснованием визуального здравого смысла. Я сделал еще один отчет о визуальном здравом смысле в Automation, который также был переведен на китайский язык и скоро будет опубликован.
Значит ли это, что мы все еще далеки от настоящего искусственного интеллекта? Не совсем. Ключ в том, чтобы найти правильные вопросы и направления для исследовательских идей. Природа уже предоставила нам хорошие примеры.
Теперь позвольте мне взглянуть на ответы, которые дала нам природа.
Раздел 2 Будущие цели: однаВдохновение от вороны
Птицы, принадлежащие к одной природе, давайте сравним ворон и попугаев, которые примерно одного размера. У попугаев есть сильная способность имитировать язык, вы говорите короткое предложение, говорите его несколько раз, оно может повторяться, что похоже на нынешние чат-боты, управляемые данными. Оба умеют говорить, но ни попугаи, ни чат-боты не понимают контекста и семантики речи, то есть не могут сопоставить то, что говорят, с объектами, сценами и персонажами физического мира и общества, что несовместимо с причинно-следственной связью и логикой.
Однако вороны намного умнее попугаев: они могут изготавливать инструменты и понимать все виды физического и социального здравого смысла человеческой деятельности.
Ниже я представляю ворону, которая живет в сложной городской среде, взаимодействуя и сосуществуя с людьми. Об этом много видео на ютубе, можете найти. Лично я считаю, что у исследований ИИ должен быть «тотем ворона», потому что мы должны серьезно учиться у них.
На изображении выше изображена ворона, которую заметили и отследили исследователи из Японии. Вороны дикие, то есть никому нет дела до них, их никто не учит. Он должен жить полностью автономно благодаря собственному наблюдению, восприятию, познанию, обучению, рассуждению и исполнению. Если вы думаете о нем как о роботе, он выживет в нашей реальной жизни. Если это автономный бомж, въезжающий в город, то он будет жить в городе, в том числе заниматься сити-менеджментом.
В первую очередь перед воронами стоит задача найти пищу. Он находит орех (другой пример — как найти мякоть в орехе) и должен его разбить, но эта задача выходит за рамки возможностей его физических действий. Другие животные, такие как гориллы, будут использовать инструменты, чтобы найти несколько камней, один большой положить под них, а средний - ударить руками. Как ни старалась ворона, она бросала с неба орехи и обнаружила, что не может решить задачу. В процессе он нашел уловку, положил фрукт на дорогу и позволил машине переехать (рис. b), что является «взаимодействием птицы и машины». Позже выяснилось, что хотя орех и был раздавлен, есть его посреди дороги было опасно. Потому что на оживленной дороге его в любой момент принесут в жертву. Здесь я хочу подчеркнуть один момент, этот процесс не обучается на больших данных, и нет так называемого обучения с учителем, у вороны нет второго шанса. Это совершенно другой механизм, отличный от многих современных методов машинного обучения, особенно глубокого обучения.
Затем он снова начал наблюдать, см. рис. c. Выяснилось, что автомобили и люди иногда останавливались на перекрестках возле светофоров. В это время он должен дополнительно осмыслить сложную причинно-следственную цепочку между светофорами, пешеходными переходами, пешеходными светофорами, остановившимися автомобилями и остановившимися людьми. Даже, какой свет работает в каком направлении и на какой объект. Разобравшись, ворона выбрала проволоку прямо над переходом «зебра» и присела (рис. d). Здесь я хочу подчеркнуть еще один момент, может быть, он наблюдает и учится в других местах, и в этом месте нет условий этих мест для сидения на корточках. Он должен верить, что ту же самую причинность можно переместить в текущее местоположение. Это то, чего не могут сделать многие современные методы машинного обучения. Например, некоторые методы обучения с подкреплением позволяют роботам захватывать какие-то неподвижные объекты, например, строительные блоки, при этом изменить положение невозможно; для алгоритмов искусственного интеллекта в играх при смене экрана приходится начинать обучение заново.
Он бросал орехи на пешеходном переходе, ждал, пока машина проедет мимо, а затем ждал, пока не загорятся пешеходные огни (рис. e). В это время машины были припаркованы за пределами зебры, и он, наконец, смог неторопливо подойти и поесть мякоть на земле. Вы говорите, какая умная эта ворона, я ожидаю от нее настоящего интеллекта.
У этой вороны есть как минимум три точки вдохновения:
Во-первых, это полностью автономный интеллект. Восприятие, познание, рассуждение, обучение и исполнение — в нем есть все. Как мы уже говорили, проблема, которую не может решить группа лучших ученых мира, ворона доказала нам, что такое решение существует.
Во-вторых, вы говорите, что у него есть возможность обучения на основе больших данных? Есть ли у этой вороны миллионы обучающих данных, помеченных людьми, на которых она может учиться? Нет, он разобрался с этим сам на небольшом количестве данных, и его никто не учил.
В-третьих, насколько велика голова вороны? Менее 1% размера человеческого мозга. Потребляемая мощность человеческого мозга составляет около 10-25 Вт, а для достижения его функции требуется всего 0,1-0,2 Вт, и нет необходимости в упомянутой выше ядерной энергетике. Это также создает проблемы и идеи для разработчиков аппаратных микросхем. Когда я читал лекцию в Институте вычислительных технологий Китайской академии наук более десяти лет назад, я сказал, что VPU чипа видения должен быть более продвинутым, чем более поздний GPU. Недавно я работал над большим проектом по компьютерной архитектуре, и у меня тоже была такая цель.
Подумайте об этом для молодежи здесь, у вас есть большой шанс здесь, это решение существует, но мы не знаем, как использовать научный метод для реализации этого решения.
С точки зрения непрофессионала, мы ищем интеллект в режиме «ворона», а не интеллект в режиме «попугай». Конечно, мы также должны видеть, что интеллект модели «попугая» может быть эффективен для некоторых вертикальных приложений в бизнесе.
Я не говорю здесь, что все интеллектуальные проблемы должны быть решены, прежде чем можно будет делать коммерческие приложения. Если отдельная технология является зрелой и внедренной, она также может иметь огромную коммерческую ценность. Я говорю здесь о цели научного исследования.
Раздел 3 Исторический период: от «Пяти гегемонов периода Весны и Осени» до «Шести героев периода Сражающихся царств».
Чтобы понять тенденцию развития искусственного интеллекта, мы должны сначала просмотреть историю. Не умеет читать историю, не может предсказывать будущее. В этом разделе я расскажу о своей точке зрения, основанной на собственном опыте, который не обязательно является точным и исчерпывающим. Для того, чтобы было легко понять непрофессионалам, я проведу аналогию между 60-летней историей искусственного интеллекта и периодом в истории Китая, но абсолютно не буду делать больше раскрутки и расширения. Как показано на рисунке ниже, этот период основан на времени США, а Китай обычно отстает на один или два года.
Во-первых, посмотрите на поверхностный слой.Отраженный в некоторых отраслевых новостях и социальных новостях, искусственный интеллект пережил несколько взлетов и падений.На английском языке он называется Boom and Bust, что означает «мчаться вверх и мчаться прочь», что очень ярко. Каждая стрела работает по разным технологиям.
Самый ранний подъем пришелся на период с 1956 по 1974 год и был представлен выражениями знаний, такими как логика высказываний, логика предикатов и алгоритмы эвристического поиска. В то время он уже начал заниматься шахматами. Затем введите первую зиму. В это время в Китае закончилась Культурная революция и начали осваивать западные технологии. Когда я учился в начальной школе, я услышал в газете сообщение о том, что компьютеры играют в шахматы с людьми, и мне стало очень любопытно.
В начале 1980-х был второй бум, и появилась группа хвастливых профессоров и исследователей. Для создания экспертных систем, инженерии знаний, медицинской диагностики и т. д. в Китае также были люди, которые хотели создавать такие системы, как традиционная китайская медицина. Хотя на этот раз некоторые ученые получили премию Тьюринга, эти исследования не имеют хорошей теоретической основы. В 1986 году я поступил на факультет компьютерных наук Китайского университета науки и технологий, меня не очень интересовала сама информатика, но я чувствовал, что это инструмент и навык, а область искусственного интеллекта очень глубокая и достойный долгосрочного исследования, поэтому я очень рано выбрал искусственный интеллект в качестве факультатива.Последипломный курс — это курс, который читает преподаватель с факультета автоматизации, который уехал в Соединенные Штаты для дальнейшего обучения. После урока я был разочарован и чувствовал себя опустошенным. В основном он по-прежнему основан на символическом мышлении, далеком от реального мира. В то время персонал искусственного интеллекта также был очень пессимистичен и деморализован. Итак, я пошел читать смежные разделы о человеческом интеллекте: нейрофизиологию, психологию, когнитивную науку и т. д., что привело меня к тому, что я коснулся зарождающейся дисциплины компьютерного зрения. В конце 1980-х был кратковременный бум исследований в области нейронных сетей, мы тогда были пятилетними студентами бакалавриата, и моя дипломная работа в университете была посвящена нейронным сетям. Впоследствии искусственный интеллект погрузился в холодную зиму почти на 30 лет.
Третий бум обусловлен ростом глубинного обучения за последние два года. С предыдущими уроками ученые сначала отнеслись очень осторожно и вышли предупредить, что мы занимаемся конкретными задачами, а не общим искусственным интеллектом, всем не стоит хайпануть. Но, не мог остановить это. Компании приходится заниматься рекламой, и тогда все начинают увеличивать количество рекламы. Это было похоже на паническое бегство.Люди впереди не спали и кричали, чтобы остановиться, но большое количество людей, которые пришли, услышав новости, не знали об этом и изо всех сил старались протиснуться. Искусственный интеллект действительно слишком важен, и никто не хочет опоздать на поезд. Некоторые люди также думают, что на этот раз правда, что зимы больше не будет. Зима не зима, это зависит от того, что мы делаем сейчас.
Итак, с тех пор, как я поступил в колледж, термин «искусственный интеллект» исчез из поля зрения почти на 30 лет. Когда я сейчас оглядываюсь назад, она на самом деле не исчезла в то время, а разошлась. Исследователи объединены в пять широких областей или дисциплин: компьютерное зрение, понимание естественного языка, когнитивные науки, машинное обучение и робототехника. Эти области сформировали свои академические кружки, международные конференции и международные журналы, каждая из которых развивается самостоятельно. В искусственном интеллекте все еще есть какие-то игры, шахматы и рассуждения здравого смысла. Я называю эти 30 лет «периодом разделения», который эквивалентен «периоду весны и осени» в китайской истории. Пять Гегемонов Периода Весны и Осени эквивалентны пяти дисциплинам, которые разделены, и каждый развивается и растет независимо.
Во-вторых, из более глубокой теоретической базы. Я делю 60 лет развития ИИ на два этапа.
Первый этап: Первые 30 лет в основном основаны на выражении и рассуждениях математической логики. Есть некоторые выдающиеся представители, такие как Джон Маккарти, Марвин Мински, Герберт Симмон. Они много знают о когнитивной науке и имеют четкое общее представление. Это люди, на которых я равнялся в колледже, они получили премию Тьюринга и кучу других наград. Однако их инструменты в основном основаны на математической логике и рассуждениях. Этот набор логических вещей сложился очень чисто и красиво, и его стоит изучить. Если вам интересно, вы можете обратиться к последнему справочнику: The Handbook of Knowledge Representation, написанному в 2007 году и насчитывающему более 1000 страниц. Однако знание выражения этих символов не доходит до земли, и вся книга говорит ни о каких реальных картинках и системах, поэтому книга с более чем 1000 страниц, файл PDF всего 10M, а загрузка очень быстрая. . И лекция, которую я сейчас даю, PPT почти 1G, Потому что много фото, видео, реальных примеров.
"Система", выражаемая этой логикой, эквивалентна династии Чжоу в Китае. Король Чжоу Вэнь установил относительно рыхлую племенную систему князей и племен. Позже, когда власть потерпела неудачу, она распалась и вступила в период пяти гегемоний в Китае. Весенне-осенний период. Искусственный интеллект также разделен на пять областей.
Второй этап: последние 30 лет в основном основаны на моделировании, обучении и расчете вероятности и статистики. После более чем 10-летнего развития «Весенняя и осенняя пятерка» в середине 1990-х годов начала находить новую «систему» вероятности и статистики: статистическое моделирование, машинное обучение, алгоритмы случайных вычислений и т. д.
Есть несколько человек, которые играют центральную роль в преобразовании этой системы. Говоря простым языком, они принадлежат к пророкам, которые заранее увидели тенденцию развития искусственного интеллекта и сделали ставку на правильное направление (это эквивалентно покупке акций Microsoft и Intel в 1980-х; в конце 1990-х они сделали ставку на правильная группа китайских агентов по недвижимости). Они не попали на пропагандистский горизонт китайских СМИ. Позвольте мне дать краткое введение, из которого мы также можем извлечь некоторую научную информацию.
Первого человека звали Ульф Гренандер. Он занимается стохастическими процессами и вероятностными моделями с 1960-х годов и является одним из первых пионеров. В 1960-х годах, в период разногласий среди сотен научных школ, когда другие ведущие деятели говорили о логике и нейронных сетях, он начал заниматься вероятностными моделями и вычислениями, создал теорию обобщенных закономерностей и попытался создать единую математическую модель. для различных закономерностей в природе. Я писал о нем в предыдущем посте в блоге об истории компьютерного зрения, и он только что скончался. Американское математическое общество AMS только что учредило премию Гренандера от его имени за вклад в области статистического моделирования и вычислений. Он определенно был пионером академической мысли.
Второй человек - Джудея Перл. Он мой коллега из Калифорнийского университета в Лос-Анджелесе, и раньше он работал над алгоритмами эвристического поиска. В 1980-х годах была предложена байесовская сеть для выражения вероятностных знаний в когнитивных рассуждениях и оценки неопределенности рассуждений. К концу 1990-х он продолжал исследовать причинно-следственные связи, которые снова опередили свое время. В 2011 году он получил премию Тьюринга за этот вклад. Он знающий, деятельный ум, постоянно имеющий оригинальные идеи. В свои 80 лет он все еще публикует статьи с большим доходом. Между прочим, он был первым адъюнкт-профессором факультета вычислительной техники и статистики Калифорнийского университета в Лос-Анджелесе, а я вторым за много лет. На самом деле, идея проведения такого рода междисциплинарных исследований опередила свое время: при поиске работы или ее отзыве коллеги с обеих сторон не любили ее или признавали ее.
Третья - Лесли Вэлиант. В 2010 году он получил премию Тьюринга за большой вклад в дискретную математику, компьютерные алгоритмы и распределенную архитектуру. В 1984 году он опубликовал статью, которая стала пионером теории вычислительного обучения. Он задал два простых, но глубоких вопроса. Первый вопрос: сколько примеров и данных нужно, чтобы примерно и с определенной долей уверенности выучить понятие, которым является PAClearning; второй вопрос: если объединить два слабых классификатора, можно ли повысить производительность? Если можно, то продолжайте усиливать слабый классификатор, можно сходиться к сильному классификатору. Это источник Boosting и Adaboost, который позже был разработан одним из его докторантов. Кстати, принцип этого машинного обучения, собственно, китайцы уже давно наблюдают в своей жизни. Лейтенант здесь - адъютант, который собирается вместе, чтобы обсудить меры противодействия во время войн, и в народе ходит по слухам как "сапожник". Valiant очень сдержан. Когда я поступил в Гарвард в 1992 году, я посещал его занятия в первом семестре, тогда я не мог его понять, и он в основном разговаривал сам с собой на уроках. Вопросы своего научного исследования он прямо поручил нам сделать, а справочных ответов нигде не найти, да и спросить было не у кого. Увы, я набрал более 40 баллов в 100-балльной категории. В классе было более 40 человек, а в середине семестра всего около дюжины.Я начал беспокоиться о том, не провалю ли я класс. В конце концов, держитесь до конца. Он вывесил свои оценки на двери своего кабинета, и когда я с трепетом посмотрел на оценки, я обнаружил, что он всем ставит пятерки.
Четвертый — Дэвид Мамфорд. Я поместил его сюда, немного эгоистично, потому что он мой научный руководитель. Он сказал, что изначально интересовался искусственным интеллектом в начале 1960-х годов. Благодаря своим сильным математическим способностям он обнаружил, что может доказать Великую теорему, когда прошел курс алгебраической геометрии, и результат вышел из-под контроля, и он выиграл медаль Филдса. Однако в середине 1980-х он все же решил вернуться к направлению искусственного интеллекта, начав с компьютерного зрения и вычислительной нейронауки. Я слышал, что он взял с полки все оригинальные книги по алгебраической геометрии и поставил их в коридоре, позволил людям забрать их и никогда больше их не читал. В гости приезжали математики, но он тоже отказался их принять. В 1980-х и начале 1990-х одним из самых больших жанров в компьютерном зрении была геометрия и инварианты, он был экспертом в этой области, но вообще не спрашивал об этом направлении. Он начал изучать вероятность с нуля.В то время он приглашал меня постучать в дверь профессора статистики наверху, когда тот не понимал вопроса, например, спрашивал у Перси, известного специалиста по вероятностям из Гарварда. Диаконис. Он тотальный ученый, который опускает воздух, чтобы узнать что-то новое, и идет прямо к системе ключей, а не ищет гвозди молотком, к которому он привык, — это то, чем я восхищаюсь больше всего. Затем он обратился к теории обобщенных паттернов. Его вклад, я избегаю подозрений.
В этот период другой важной фигурой был Хинтон, профессор нейронных сетей и глубокого обучения в Университете Торонто. Когда я учился в колледже, он был известен во время бума нейронных сетей в конце 80-х. Он очень вдумчивый и настойчивый, ученый персонаж. Отличие в том, что команда под его началом немного похожа на рок-певца, который с популярной песней (кодом) может быстро стать популярным на всю страну. Между прочим, я встречался с Хинтоном только один раз. Его болезнь поясничного отдела позвоночника мешала ему везде выступать с докладами, а в Калифорнийский университет в Лос-Анджелесе он приезжал читать лекции несколько лет назад (когда deep learning только начиналось), и мы договорились об интервью. Как только мы встретились, он сказал: «Наконец-то мы встретились», потому что он читал некоторые статьи о статистических текстурных моделях и случайных алгоритмах, которые я делал ранее, и некоторые модели и алгоритмы их школы и нашей работы имели много сути на математический уровень. Я напечатал ему обзорную статью, чтобы он прочитал ее на обратном пути в поезде. Это статья об информационном масштабе объединения и перехода неявных (марковское поле) и явных (разреженных) моделей.По возвращении в Торонто он отправил электронное письмо, в котором сказал, что очень рад прочитать эту статью. Очень интересно, что первый вариант этой статьи, мои студенты и я анонимно представили на конференцию CVPR, и три оценки были «(5) категорически отклонены; (5) категорически отклонены; (4) отклонены». Все комментарии были короткими: «Эта статья не имеет смысла, она странная». Мы чувствуем, что статья мертва, поэтому нам лень опровергать (опровержение) и был принят неожиданно. Конечно, никто не может это прочитать. Итак, я написал длинный обзор, который я пока отложил. Я показал ему эту бумагу, Хинтон все-таки эксперт и, должно быть, думал о подобных проблемах. Недавно мы вернулись к работе над этим вопросом, я также упомянул об этом в специальном отчете конференции ICIP в этом году, который будет опубликован позже в виде статьи «Visual Quest». Это очень важный вопрос, то есть как объединить два типа вероятностных и статистических моделей (как физика, которая надеется объединить какие-то две силы и поля), которую нельзя обойти.
Уходя далеко назад, к историческому периоду искусственного интеллекта, я сделал относительно популярное для всех запоминание высказывание, которое эквивалентно ранней истории нашей страны. В первые дни система математической логики была эквивалентна династии Чжоу.К 1980-м годам эта система рухнула, и искусственного интеллекта не существовало около 20-30 лет.Когда дело доходит до искусственного интеллекта, все находят его неуместным. и стигматизированы. Фактически, он вступил в период пяти гегемоний в период Весны и Осени, и пять дисциплин компьютерного зрения, понимания естественного языка, когнитивистики, машинного обучения и робототехники развивались независимо. В процессе развития и роста эти дисциплины открыли новую платформу или режим — вероятностное моделирование и стохастические вычисления. Хотя в период Весны и Осени было несколько сражений, это все же был относительно спокойный период.
Итак, в какое состояние нужно войти сейчас? Эти «Пять Гегемонов Весны и Осени» продолжают расширять свою территорию и людей, и начинают взаимодействовать на общей платформе. Например, зрение и машинное обучение начали объединяться очень рано. Теперь зрение и естественный язык, зрение и познание, зрение и робототехника начинают сливаться. В последние годы мы с коллегами организовали несколько таких совместных семинаров. Теперь дисциплины начали сливаться, как «Семь героев периода Воюющих царств» в истории Китая. Помимо пяти гегемонов, в искусственном интеллекте изначально остались два основных направления: принятие игровых решений и этика. На самом деле они очень близки. Позже я сгруппирую их вместе. Всего есть шесть основных областей, и я обозначу их как «Шесть героев периода Воюющих царств».
Итак, я сказал тем аспирантам и молодым людям, занимающимся компьютерным зрением, что не стоит делать это только здесь, в видении, вы должны выйти и «захватить территорию» и заняться видением в одиночку, здесь не так много новых вещей, которые нужно делать, и производительность не может быть приспособлена к людям компании Это одно, что более неприятно, так это то, что люди из других областей приходят и занимают вашу территорию. Это то, что должно произойти, то, что происходит сейчас.
Я считаю, что мы только что вступили в «Период Воюющих царств», и в будущем мы должны объединить эти области. Прежде всего, мы должны иметь глубокое понимание компьютерного зрения, естественного языка, робототехники и других областей, богатых содержанием и семантикой. Если вы не понимаете смысла этих проблемных областей, вас невозможно назвать экспертом по искусственному интеллекту, просто занимаясь машинным обучением.
Мы вступаем в эру великой интеграции и великих перемен, и у нас есть много возможностей исследовать границы, так что не доживайте до этой эры. Это первая часть моего выступления: история, текущая ситуация и общие тенденции развития искусственного интеллекта.
Теперь ко второй теме моего сегодняшнего выступления:Какие рамки используются для объединения этих областей и вопросов.Я не осмеливаюсь сказать, что у меня есть ответ, я просто предложил вам несколько вопросов, примеров и идей для размышления. Не ждите, что я предоставлю вам код, скачаю его обратно, настрою параметры и затем опубликую статью.
Раздел 4 Когнитивная архитектура исследований искусственного интеллекта: малые данные, парадигма больших задач
Интеллект – это феномен, проявляющийся в поведении отдельных людей и социальных групп. Возвращаясь к предыдущему примеру с вороной, я думаю, что корни интеллектуальных систем можно проследить до двух основных предпосылок:
один,Объективная реальность и причинно-следственная связь физической среды.Это пограничное условие жизни, предоставляемое вороне внешней физической средой. В разных условиях среды форма интеллекта будет разной. Любая разумная машина должна понимать физический мир и его причинно-следственные связи и адаптироваться к ним.
два,Врожденные задачи и цепочки создания стоимости разумных видов.Эта задача является «просто необходимостью» для биологической эволюции. Например, для выживания особей требуются вопросы питания и безопасности, а наследование видов требует спаривания и социальной активности. Эти основные задачи порождают ряд других «задач». Поведение животных обусловлено различными задачами. Задачи представляют собой ценности и функции принятия решений, многие из которых эволюционировали в ходе эволюции, включая модуляцию вознаграждений и наказаний различными химическими веществами, обнаруженными в человеческом мозгу, такими как дофамин (счастье), серотонин (боль), ацетилхолин ( тревога), неуверенность), норадреналин (новизна, волнение) и др.
С причинно-следственной цепью физической среды и задач и цепочек ценности разумных видов можно вывести все. Для построения интеллектуальной системы, такой как робот или виртуальный персонаж в игровой среде, мы сначала определяем для них основные функции действия тела, а затем определяем модельное пространство (включая функцию ценности). На самом деле гены организмов также дают каждому разумному индивидууму эти две точки. Затем она спускается в определенную среду и социальную группу и должна выживать автономно, подобно тому, как ворона находит способ выжить: познавать мир, использовать мир, преобразовывать мир.
Пространство упомянутой здесь модели является математическим понятием, наш человеческий мозг все время изменяется, то есть в этом пространстве движется абстрактная точка. Пространство модели выражается функциями ценности, функциями принятия решений, восприятием, познанием, планированием задач и т. д. Говоря простым языком, модель мозга — это математическое выражение мировоззрения, взглядов на жизнь и ценностей. Сложность этого пространства определяет IQ и достижения человека. Я расскажу о том, в чем выражается эта модель и какие основные элементы она содержит.
При этом врожденном основном условии (дизайне) возникает следующий важный вопрос: что движет движением модели в пространстве, то есть процессом обучения? Еще два момента:
1. Зарубежныйданные. Внешний мир передает различные сенсорные сигналы в человеческий мозг и формирует наши модели. Данные приходят из наблюдения и практики. Наблюдаемые данные обычно используются для изучения различных статистических моделей, представляющих собой совместное распределение времени и пространства, то есть статистические ассоциации и корреляции. Практические данные используются для изучения различных причинно-следственных моделей, связывающих поведение с результатами. Причинно-следственная связь и статистическая корреляция — разные понятия.
2. ВнутреннийЗадача. Это поведение, управляемое функцией внутренней ценности для достижения какой-либо цели. Наша функция ценности формируется в ходе биологической эволюции. Из-за разных задач мы часто очень чувствительны к некоторым переменным в окружающей среде и не заботимся о других. Отсюда формируются разные модели.
И мозг робота, и человеческий мозг можно рассматривать как модель. любая модель отданныеиЗадачаформировать вместе.
Теперь мы подошли к очень важному моменту. Также в рамках теории вероятности и статистики многие современные методы глубокого обучения относятся к тому, что я называю «»Большие данные, парадигма малых задач(большие данные для маленькой задачи)». Для конкретной задачи, такой как распознавание лиц и распознавание объектов, разрабатывается простая функция потерь, а конкретная модель обучается на большом количестве данных. Этот метод также полезен в некоторых задачах. .Очень эффективно.Однако результат в том, что модель не может обобщать и объяснять.Так называемое обобщение заключается в применении модели к другим задачам, а интерпретация на самом деле является сложной задачей.Это неизбежный результат: вы выращиваете дыни, как можно ли надеяться на бобы?
Противоположное направление мысли, которое я отстаивал годами: для развития искусственного интеллекта необходимо войти в «Маленькие данные, парадигма больших задач(маленькие данные для больших задач)», используя большое количество задач, а не большой объем данных для формирования интеллектуальных систем и моделей. В философском мышлении должно быть большое изменение и подрыв в мышлении. В диалектике природы Энгельс сказал, "труд создает человека", это немного спорно. Я думаю, что более подходящим утверждением будет "Задачи формируют интеллект". Различное восприятие и поведение людей все время определяется задачами. Это точка зрения, которой я придерживался в течение многих лет в прошлом, и почему я в целом не согласен с подходом школы глубокого обучения, хотя я я самая ранняя Группа людей, которые выступали за статистическое моделирование и обучение, но затем я увидел более серьезную проблему и ситуацию.Конечно, наше предположение состоит в том, что интеллектуальная система уже имеет базовую настройку, упомянутую выше, и эта настройка системы составляет сотни миллионов лет. Получается ли эволюция путем полировки (отсеивания) через большое количество данных? Это имеет смысл! Если учитывать весь процесс развития, то влияние интеллектуальных систем можно разделить на три временных периода: (1) миллиарды лет эволюции, объективный феотип выживания сильнейших по теории Дарвина Ландшафтная ориентация; (2) тысячелетнее культурное формирование и наследие; (3) десятилетия индивидуального обучения и адаптации. Третий этап обычно рассматривается в наших исследованиях ИИ.
Итак, как определить большое количество задач? Сколько задач интересует людей и какова пространственная структура? Психологические и когнитивные науки не смогли сформулировать и записать этот вопрос. Это огромный вызов для развития искусственного интеллекта.
После прояснения этих предварительных условий с такими проблемами я буду использовать шесть разделов, чтобы представить проблемы и примеры в шести основных областях, чтобы посмотреть, сможем ли мы найти общую и унифицированную структуру и модель выражения. В последние несколько лет мой исследовательский центр занимается изучением проблем этих шести областей вместе, цель состоит в том, чтобы найти единую структуру и найти «воронье» решение.
Раздел 5 Компьютерное зрение: от «глубокого» к «темному» Темный, за гранью глубокого
Зрение — главный источник информации для человеческого мозга, а также дверь в зал искусственного интеллекта. С этого началось мое собственное исследование. Этот раздел знакомит с проблемой зрения на конкретном примере. Конечно, многие вопросы далеки от решения.
Вот вид на мою кухню. Однажды днем, много лет назад, моя дочь пришла домой из школы, и я писал заявку на большой проект, и я взял эту фотографию в качестве примера. Изображение представляет собой двухмерную матрицу пикселей, но мы воспринимаем очень насыщенную трехмерную сцену и информацию о поведении; чем дольше вы смотрите, тем больше понимаете. Ниже я перечисляю несколько ключевых вопросов исследования, которые игнорируются мейнстримом (имеется в виду большинство исследователей).
1. Геометрические рассуждения здравого смысла и построение трехмерной сцены.Предыдущие исследования компьютерного зрения должны вычислять положение этих точек в трехмерной мировой системе координат (SfM, SLAM) через соответствие характерных точек между несколькими изображениями (мульти-просмотр). На самом деле людям нужно изображение только для оценки трехмерной геометрии. Впервые я опубликовал статью со студентом Хань Фэном в 2002 году, которая была высмеяна в школе геометрии в то время: «Как можно рассчитать изображение в трех измерениях?» Математически это не имеет смысла. На самом деле в нашей искусственной среде очень много здравого смысла и законов геометрии: например, высота стула, на котором вы сидите, составляет около 16 дюймов длины вашей голени, стола — около 30 дюймов, письменный стол — около 30 дюймов. около 35 дюймов, а дверь около 80 дюймов в высоту --- Все они разработаны в соответствии с размером и движением человеческого тела. Кроме того, в рукотворной среде много повторений, например, несколько окон одинакового размера, и есть правила в архитектурном дизайне и градостроительстве. Это геометрический здравый смысл, и вы можете определить трехмерное положение многих точек на основе этих геометрических ограничений и одновременно оценить положение камеры и оптическую ось.
Как показано на рисунке ниже, в этой трехмерной сцене наше понимание может быть выражено в виде графа композиционной пространственно-временной каузальной интерпретации (Spatial, Temporal and Causal Parse Graph), именуемого STC-PG. STC-PG — это чрезвычайно важная концепция, которую я постепенно представлю ниже.
Важной предпосылкой геометрической реконструкции является то, что нам часто не нужно преследовать очень точные положения глубины. Например, человеческое восприятие трехмерности на самом деле очень неточное, и его точность зависит от задачи, которую вы сейчас выполняете. Во время выполнения вы постоянно повышаете точность по мере необходимости. Например, если вы хотите поднять чашку с расстояния в несколько метров, сначала у вас есть только приблизительная оценка положения чашки, и вы постепенно корректируете точность по мере приближения и протягивания руки.
Это возвращает к проблеме, рассмотренной в предыдущем разделе.Разные задачи предъявляют разные требования к точности геометрии и распознаванию. Это важная причина, по которой человеческий мозг очень эффективен в вычислительном отношении. В последнее время мой бывший постдоктор Лю Сяобай (теперь доцент) и другие мои студенты добились хороших успехов в этой области, подробности вы можете найти в соответствующих статьях.
Во-вторых, сущностью распознавания сцен является функциональное рассуждение.В настоящее время многие ученые используют некоторые признаки изображений для классификации и сегментации сцен, а также используют большое количество примеров изображений и результатов ручной аннотации для обучения моделей нейронных сетей — это типичный режим «попугая». Определение сцены по существу является функцией. Когда вы видите трехмерное пространство, мозг человека может быстро представить, что он может делать: здесь наливать воду, здесь держать чашку, здесь сидеть и смотреть телевизор и т. д. Современный дизайн часто представляет собой составное пространство, то есть помещение может иметь несколько функций, поэтому просто классифицировать его нецелесообразно. Например, на американской кухне можно готовить, стирать, обедать, болтать и есть. В спальне можно спать, одеваться, складывать одежду и читать книги. Определение сцены зависит от того, что вы можете в ней делать, что представляет собой сцена, разделенная по функциям, этим Все движения выдуманы вами, а не на самом деле. Область узнавания и область двигательного планирования восприятия человеческого мозга напрямую связаны друг с другом и влияют друг на друга. Это сделал мой докторант Чжао Ибяо, который поступил в Массачусетский технологический институт в качестве научного сотрудника по когнитивным наукам, а теперь основал компанию по искусственному интеллекту для автономного вождения.
Для того чтобы представить себе эти функции, человеческий мозг имеет очень богатую модель действий, которые по масштабу делятся на две категории (см. рисунок ниже). Первая категория (рисунок слева) связана с действиями всего тела, такими как сидение, стояние, сон, работа и т. д., вторая категория (рисунок справа) связана с действиями рук, например, разбивать, рубить, пилить, поддевать и т. д. Подождите. Эти четырехмерные базовые модели (трехмерное пространство плюс одномерное время) могут быть записаны через повседневную деятельность, выражая отношения между человеческими действиями и мебелью, а также между руками и инструментами. Из-за этого психологические исследования показали, что мы делим объекты на две категории, которые хранятся в разных областях коры головного мозга: одна связана с размером руки и движением руки, например предметы на вашем столе; другие классы связаны с телом, например с мебелью.
При таком понимании мы знаем: следующие два изображения, хотя характеристики изображения совершенно разные, представляют собой сцены одного типа и функционально эквивалентны. Человеческая деятельность и поведение, независимо от того, в какой стране или историческом периоде вы находитесь, в основном неизменны. Это основа интеллектуального обобщения, то есть помещая вас в новую область, вам не нужно обучение большим данным, вы можете сразу понять и адаптироваться. Это основа, на которой мы можем делать выводы из других.
Возвращаясь к предыдущей диаграмме интерпретации STC-PG, каждая сцена фактически разбивается на некоторые действия и функции (см. узел зеленого квадрата на диаграмме STC-PG). Классификация сцен определяется различными функциями компьютерного воображения и рассуждения. Функция воображения заключается в том, чтобы вписать различные позы людей в трехмерную сцену (см. рисунок линии человеческого тела на диаграмме интерпретации кухни). Это полностью отличается от методов классификации, используемых современными методами глубокого обучения.
3. Обоснование физической устойчивости и родства.Помимо удовлетворения различных человеческих потребностей (функций, задач) в нашем жизненном пространстве, еще одним фундаментальным ограничением является физика. Наша интерпретация и понимание изображения выражается в виде графа интерпретации, который должен удовлетворять законам физики, иначе он неверен. Например, стабильность — это то, что люди могут быстро заметить.Если вы обнаружите, что что-то вокруг вас нестабильно и вот-вот упадет, вы очень быстро реагируете и быстро уходите с дороги. Недавний когнитивный эксперимент, проведенный Брайаном Шоллем, профессором Йельского университета в нашей проектной группе, показал, что реакция людей на физическую стабильность находится на уровне миллисекунд, а время первой реакции составляет около 100 мс.
Наше понимание изображений включает в себя физические отношения между объектами, где находится точка опоры каждого объекта. Например, на картинке ниже люстра и вещи, висящие на стене, упадут, если у них нет точки опоры (рисунок справа). Профессор Джош Тененбуам с факультета когнитивных наук Массачусетского технологического института и я занимаемся этим исследованием уже много лет.
Я предлагаю новый минимаксный критерий понимания сцены: минимизировать нестабильность и максимизировать функциональность. Это более надежно, чем стандарт MDL (минимальная длина описания), который мы использовали для понимания изображений. Это фундаментальный принцип решения компьютерного зрения, функция и физика являются основными принципами проектирования сцены. Геометрические размеры выводятся из функций.Например, высота стула равна длине вашей икры, потому что вы хотите удобно сидеть.
Возвращаясь к примеру с моей кухней, вы спросите, как там обнаруживается вода? Вода невидима, а вода в вазах и кувшинах выталкивается разными способами. Также вы могли заметить, что бутылка с кетчупом на столе стоит вверх дном, почему? Возможно, вы очень хорошо знаете, что когда ваш шампунь вот-вот закончится, бутылка перевернута вверх дном? Это результат понимания физики и функций вязких жидкостей. Из этого вы можете увидеть, насколько «глубоко» наше понимание сцены, выходящее далеко за рамки классификации объектов и обнаружения с помощью глубокого обучения.
4. Намерение, внимание и предсказание.На картинке кухни есть человек и собака, и мы можем дополнительно идентифицировать их движения, куда устремлены их глаза, и вывести их мотивы и намерения. Таким образом, мы можем вычислить, что она делает, что она хочет сделать, например, хочет ли она пить или устала сейчас. По накоплению времени можно узнать, что она знает, то есть что она видела или не видела. Делайте прогнозы с точки зрения времени, что она хочет делать дальше. Только когда они рассчитаны, машина может лучше взаимодействовать с человеком.
Итак, хотя мы видим только одну картинку, в этом STC-PG мы добавили измерение времени, чтобы сделать уровень анализа и предсказания действий людей и животных до и после. Когда робот может предсказывать намерения других людей и последующие действия, он может взаимодействовать и сотрудничать с людьми. Позже языковой диалог, на котором мы говорим, может помочь в взаимодействии и сотрудничестве человека и компьютера, однако многие из наших ежедневных интерактивных действий основаны на молчаливом понимании, и мы можем многое сделать без слов.
Следующее изображение является примером интерпретации комплексной сцены с несколькими камерами. Это система технического зрения, сделанная в моей лаборатории. Понимание этого видео выводится как большой комплексный STC-PG. На этой основе можно вывести описание текста (I2T) и ответить на вопрос QA. Мы называем это визуальным тестом Тьюринга, доступным на сайте visualturingtest.com.
Подобно соревнованию по робототехнике, описанному в первом разделе, это также проект DARPA. Тест заключается в использовании большого количества видеороликов.Мы рассчитываем трехмерную модель, действие, атрибут, отношения и т. д. сцены и человека, а затем отвечаем на множество более чем 1000 вопросов. Сейчас группа специалистов по компьютерному зрению изучает VQA (визуальный ответ на вопрос), который должен тренироваться вместе с большим количеством изображений и текстов, это типичная "попугайная" система, которая в основном "белая". Текст ответа не очень понимает содержание изображения и часто не имеет смысла. Мы проделали эту работу за много лет до VQA. Наша система возглавила тестирование проекта DARPA — задача, с которой в то время другие команды просто не справились. Однако реальность научных исследований теперь должна стать «развлечением»: поверхностные песни популярны, их может петь каждый, а сложных и глубоких вещей все избегают.
Кстати, позвольте мне сказать кое-что о конкуренции. Примерно с 2008 года идеал конференции CVPR был «унесен в канаву» людьми, организующими различные соревнования по наборам данных, не говоря уже о понимании, просто числах в команде. Многие студенты и команды в Китае начали участвовать, что широко известно как «подметание списка». В то время я сказал тем, кто организовал набор данных (на самом деле, я был первым, кто сделал крупномасштабную аннотацию данных в Ляньхуашане, провинция Хубэй в 2005 году, но я увидел эту проблему рано утром и не поощрял список), вы несколько лучших игроков в соревновании Это должен быть китайский студент или компания. Теперь это сбылось, и большинство первых в списке китайских названий или единиц. Наш рейтинг лучше, чем игра в настольный теннис, и рейтинг стал «национальным мячом» нашего исследования ИИ. Так называемый список кистей обычно загружается из чужого кода, улучшается, корректируется и строится в виде большего модуля, поэтому скорость высокая. Однажды я посетил китайскую компанию с отличными технологиями (не в планах), и директор по исследованиям и разработкам этой компании был очень горд, говоря, что они всегда выигрывают, когда находятся в списке, даже в лучших университетах США. Я теряю терпение. Я сказал, что там этим занимаются только два студента. С такой большой командой, как вы, в вашем коде практически нет собственного алгоритма. Если люди не опубликуют код раньше, вы вообще не сможете играть. Многие компании используют этот вид результатов рейтинга, чтобы рекламировать себя как превосходящие мировой уровень.
5. Причинно-следственные рассуждения и обучение, ориентированные на задачу.Ранее я говорил на примере понимания сцены, а теперь расскажу о распознавании и понимании объектов, и почему нам не нужна модель обучения больших данных, а полагаемся на возможность делать выводы из одного экземпляра.
Мы, люди, очень утилитарные социальные животные, а это означает, что все, что мы делаем, обусловлено задачами. Эту точку 2000 лет назад Сыма Цянь видел задолго до западной утилитаристской философии («Исторические записи», «Историческая биография»):
«Мир суетится, все приходят к наживе, мир суетится, все к наживе».
Затем люди также смотрят на мир с утилитарной целью, которая называется «телеологической позицией». Для чего используется этот объект? Что это дает мне? как пользоваться?
Конечно, полезность определяется по отношению к поставленной задаче. Когда вам не нужно много вещей, вы часто закрываете на это глаза; как только они вам понадобятся срочно, вы станете сокровищем. Как говорится, "снобистские глаза", тут ни при чем, такова человеческая природа! Что ты делаешь сегодня, что ты делаешь завтра, у каждого момента есть задача. Как говорится, "приклад решает голову". Чиновник сидит на разных должностях, и у него разные задачи и идеи. Как только положение скорректируется, оно сразу будет "правильным и неправильным".
Наши знания организованы в соответствии с нашими задачами. Итак, что такое задача? Как выразить это в виде математического описания?
Каждая задача фактически меняет состояние некоторых объектов в сцене. Ньютон придумал слово, которое здесь заимствовано: оно называется беглый. Это слово не переведено на китайский язык, это состояние, которое можно изменить, я пока переведу его как «текучее состояние». Например, при кипячении воды температура воды представляет собой текучее состояние; пространственные отношения между кетчупом и бутылкой — это текучее состояние, которое можно выжать; а некоторые текучие состояния — это биологические состояния человека, такие как голод, усталость, радость. , и горе , или социальные отношения: от простых людей, к друзьям, к близким друзьям и т. д. Люди и животные находятся в движении, меняя режим потока, чтобы улучшить нашу функцию ценности (интерес).
Зная это, давайте поговорим о понимании 3D-сцен и движений человека на изображениях. По сути, это рассуждение о причинности. Так называемая причинность такова: действия человека приводят к определенному потоку изменений. Понимание изображений на самом деле то же самое, что детектив (Шерлок Холмс), расследующий дело: данные, которые ему нужны, часто представляют собой небольшие подсказки, но он может видеть эти подсказки, которые обычные люди без детективной подготовки не видят. Итак, как мы можем увидеть эти подсказки? Во-первых, вам нужно много знаний.Эти знания приходят извне изображения и используются в процессе вашего воображения.Например, как здесь упал волос? Есть также мотивация и цель поведения.Какой «поток» преступник хочет изменить?
Я называю вещи за пределами этих изображений собирательно «темной материей» — Темной Материей. Физики считают, что наша наблюдаемая материя и энергия составляют лишь 5% всей Вселенной, а остальные 95% составляют ненаблюдаемая темная материя и темная энергия. Зрение очень похоже на это: перцептивные образы часто составляют только 5%, предоставляя некоторые подсказки, в то время как последние 95%, включая функцию, физику, причинность, мотивацию и т. д., дополняются человеческим воображением и процессом рассуждения.С этой реализацией давайте рассмотрим пример (см. левую часть рисунка ниже). Этот пример взят из статьи, опубликованной нашим CVPR в 2015 году. Основным автором является Чжу Исинь, и это тоже работа, которая мне очень нравится. Задача одного человека - разбить грецкий орех и изменить поток грецкого ореха на столе. Дайте это задание студенту Калифорнийского университета в Лос-Анджелесе, который выбирает молоток среди инструментов на своем столе, и в этом процессе нет ничего особенного, потому что вы тоже делаете это.
Но если подумать, то этот вопрос достаточно сложен. В этом действии содержится много информации: почему он выбрал именно этот молоток и ничего больше, почему он держал молоток за рукоятку? Сила его взмаха рассчитана. Есть десятки тысяч возможных других вариантов и решений.Он не выбирал, а значит его выбор точно будет лучше других вариантов.Что в этом хорошего? Казалось бы, простые вопросы часто бывают очень важными, и большинство людей склонны их игнорировать.
Благодаря этим размышлениям и сравнениям вы поймете, что это за задача и какие у вас есть хитрости. В прошлом ученик учился у мастера. Мастер часто выполнял задания, а ученик наблюдал. Мастер не учил. Иногда мастеру приходится держать руку на пульсе, иначе вы рано уйдете от учителя и заберете его работу. Иногда мастер блокирует чтение, у романов Мо Яня такой сюжет. Когда люди наблюдают, они учатся этой задаче.
Теперь к новой сцене (справа на картинке), инструменты, которые были изучены ранее, не существуют, это совершенно новая сцена и объекты, а задача остается прежней. Вы снова пытаетесь разбить этот грецкий орех, что мне делать? С людьми, конечно, проблем нет, если вы выберете ножки стола из дерева, действие по их разбиванию будет другим. Это вывод других фактов, это разведданные, других данных нет, обучения данных мало, это не метод глубокого обучения.
Как же работает этот алгоритм? Мы выражаем наше понимание этого физического пространства, действия и причинности в виде графа пространственного, временного и причинного разбора (STC-PG). Этот STC-PG включает в себя ваше понимание пространства (объекты, трехмерные формы, материалы и т. д.), планирование действий во времени и рассуждения о причине и следствии. Лучше всего разбить его вот так. Он может реализовать физическую причину и следствие, и его можно разбить на части. Затем его можно решить, соединив его воедино. Найти такую аналитическую диаграмму времени, пространства, причины и следствия решение. То есть в итоге вы достигаете своей цели и меняете определенное состояние физического потока.
Подчеркну еще несколько моментов:
1. Выражение этого STC-PG такое, какое вы себе представляете. Этот процесс понимания продумывается до того, как вы начнете.Большинство узлов и ребер в нем не на изображении, что я и называю «темной материей».
2. В этом процессе расчета большое количество операций относится к процессу расчета «сверху вниз». То есть используйте огромное количество знаний, которые вы получили в коре головного мозга, чтобы объяснить «подсказки», которые вы видите, и найти разумное решение. И этот процесс вычисления сверху вниз недоступен в текущей глубокой многослойной нейронной сети. Нейронная сеть имеет только прямую связь для распространения информации слой за слоем. Вы можете сказать, разве это не обратное распространение? Это не сверху вниз. Год назад Лекун приехал в Калифорнийский университет в Лос-Анджелес, чтобы прочесть лекцию, и, увидев меня здесь, сказал, что в настоящее время в DNN отсутствует вычислительный процесс сверху вниз, за который выступает профессор Чжу.
3. Для изучения этой задачи требуется всего несколько примеров. Если человек запрашивает слишком много примеров, значит, у него голова «не открыта» и его IQ не хватает. Кстати, я преподаю в Калифорнийском университете в Лос-Анджелесе, и в конце семестра студенты будут оценивать качество преподавания преподавателю. Распространенное мнение студентов состоит в том, что профессор Чжу приводит слишком мало примеров. Извините, у меня нет времени приводить столько примеров на уроке, это не настоящий навык и не суть обучения. Учитель сказал: «Учиться без размышлений бесполезно, думать без учения опасно». «Мышление» здесь должно быть рассуждением, формирующим непротиворечивое объяснение явлений, поведения и задач в мире природы или обществе, На мой взгляд, это СТК-ПГ.
Так как же получается STC-PG? Его материнская плата — STC-AOG, а AOG — And-Or Graph. Этот граф И-ИЛИ представляет собой сложную модель графа вероятностной грамматики, которая может вывести огромное количество регулярных вероятностных событий, каждое из которых является STC-PG. Это выражение согласуется с областями языка, познания, робототехники и т. д. На мой взгляд, этот STC-AOG является единым выражением, которое может пройти через стыки с логикой и DNN. Здесь нечего сказать.
Далее, пример с дроблением грецких орехов — это все еще эксперимент в статье Чжу Исинь, который очень сложно провести. Например, задача сейчас «перелопачивание почвы», я приведу пример того, что такое перелопачивание почвы, а затем начну проверять обобщающую способность этого интеллектуального алгоритма (робота). Увидеть ниже.
Первая серия экспериментов (слева от рисунка). Я дал вам некоторые инструменты для перелопачивания почвы.Робот сначала выбрал эту лопату.Это не распознавание образов.Он также выводит движение и скорость лопаты,зеленая область выходной ручки лопаты указывает,где ее нужно держать. Красный указывает, где он используется для перелопачивания почвы. Второй вариант — кисть.
Вторая серия опытов (на фото). Если бы я убрал эти инструменты, вы теперь используете какие-то обычные предметы дома, а задача по-прежнему заключается в перелопачивании. Его первый выбор - горшок, а второй выбор - чашка. Оба варианта действительно лучшие. Это делается компьютерным зрением автоматически.
Третья серия опытов (справа на рисунке). Если мы вернемся в каменный век, что может сделать груда камней? Поэтому я часто говорю, что наши предки каменного века были умнее сегодняшних детей. Поскольку они могут понять природу мира, теперь инструменты и объекты становятся все более и более конкретными, а люди становятся все более и более глупыми, когда один инструмент выполняет одну задачу. Визуальное познание вырождается в проблему распознавания образов: от понимания исходного инструмента к распознаванию образов. То есть от вороны до попугая.
Резюме компьютерного зрения: Кратко резюмирую историю видения. Увидеть ниже.
Основным направлением исследований зрения в первые 25 лет является изучение геометрии, формы и объектно-ориентированных исследований: основанных на геометрии и объектно-ориентированных. За последние 25 лет он использовался для идентификации и классификации внешнего вида объектов путем извлечения богатых характеристик изображения с точки зрения изображения: на основе внешнего вида и по центру вида. Геометрия, безусловно, определяет внешний вид. Так в чем же причина геометрии? Дизайн геометрических фигур потому, что есть задачи, а у верхнего слоя есть задачи.Тогда, учитывая функции, физику и причинно-следственную связь, эти объекты предназначены для генерации изображений.Это основная проблема. Невидимые на текущем изображении «вещи» я называю темной материей. темно в физике Энергия материи составляет 95%, и это правда, что темная материя также составляет большую часть нашего разума. И то, что вы видите, это то, что сейчас может решить глубокое обучение. Например, распознавание лиц и распознавание речи — это лишь малая часть того, что вы можете видеть, то, что вы не можете видеть, находится позади, это наш настоящий интеллект, как эта ворона может быть Выполнено.
Итак, одна из моих идей заключается в том, что для дальнейшего развития компьютерного зрения необходимо обнаружить эту «темную материю». Только подумав вместе о 95% темной материи, представленной на изображении, и о 5% подсказок, видимых на изображении, мы можем достичь реального понимания. Сейчас все любят добавлять Глубокое перед своей работой, думая, что она глубокая и глубокая, но на самом деле она все еще очень поверхностна. Независимо от того, насколько вы глубоки, независимо от того, сколько слоев сверточной нейронной сети у вас есть, она имеет дело только с видимыми особенностями внешнего вида изображения и особенностями речи, не выпрыгивая из 5%, верно? Убедил ли я вас тех студентов, которые думают, что глубокое обучение решает проблему компьютерного зрения? Если нет, то это еще не все.
Будущее визуальных исследований, я использую одно предложение:Иди в темноту, за пределы глубины--- Исследуйте темноту, выходите за пределы глубины.
Таким образом, зрение связано с познанием и языком.
Раздел 6 Когнитивное мышление: вход во внутренний мир
Разумная темная материя, упомянутая в предыдущем разделе, уже относится к комбинации восприятия и познания. Еще один шаг внутрь, и вы входите в Разум, внутренний мир людей и животных, который отражает внешний мир и одновременно подвергается влиянию и искажению мотивационными задачами. В содержание исследования входят:
-
Что увидел Та? Знаешь что? Когда ты узнал? На самом деле это интеграция исторического времени видения.
-
На чем сейчас сосредоточен Та? Это текущая задача.
-
Каковы намерения Та? Что вы хотите сделать позже? Предугадывайте будущие цели и мотивы.
-
Что ему нравится? Что такое функция стоимости? Это обсуждается в разделе IX для конкретных примеров.
С самого начала искусственного интеллекта исследователи задавались этими вопросами, представленными Мински: общество разумов, а психологическое исследование называется Теорией разума. К 2006 году Сакс и Канвишер из отдела когнитивных наук Массачусетского технологического института (она была соавтором одного из моих проектов) обнаружили, что в коре головного мозга человека есть особая область для восприятия и рассуждений о мыслях других людей: Я знаю, что вы думаете Что, что делать? делать. Это важная часть искусственного интеллекта.
В качестве распространенного примера вы, возможно, слышали такие социальные новости: мужчина может поддерживать отношения с несколькими девушками одновременно, не будучи обнаруженным другой стороной, то есть его девушки не знают друг друга. На самом деле это трудно сделать, потому что вы будете разоблачены, если не будете осторожны. Ему нужно вспомнить, кому он солгал и что он сделал или обещал. Эта корковая область у такого человека должна быть особенно развита, в то время как область его подруг может быть не так развита. Шпионы в фильме нуждаются в специальной подготовке в этом аспекте «антиразведывательных» способностей, то есть вы пытаетесь не позволить другой стороне обнаружить ваше сердце. Это экстремальная ситуация. В реальной жизни, в вообще не частной деятельности, мы беззащитны, т. е. «господа великодушны».
Эта способность разведки и антиразведки есть не только у людей, но и у животных (см. рисунок выше). Например, эта птичка (слева на картинке), когда прячет плод, она проверяет, нет ли поблизости других птиц или животных, чтобы увидеть его; если есть, то она не спрячется, ей нужно найти время и место, когда никто не смотрит на это тибетское. Это наблюдение за вами и знание того, что вы знаете. На фото представлено видео лисы и выдры, противостоящих друг другу. После того, как выдра поймала рыбу, она обнаружила, что лиса смотрит на нее на берегу, и она знала, что лиса хочет схватить рыбу ртом. Выдра пыталась спрятать рыбу, она спрятала рыбу под воду, а потом лиса пошла ее искать. Это показывает, что животные знают друг друга, о чем думают другие.
Это понимание у детей появляется с годовалого возраста. Ключевое доказательство ответа: он будет указывать вам на вещи, и он будет знать, видите ли вы это или нет. Феликс Варнекен в настоящее время является доцентом факультета психологии Гарвардского университета. Когда он был докторантом, он провел серию психологических экспериментов. Как правило, ребенок старше одного года может открыть вам дверь, и он будет счастлив и проявит инициативу, чтобы помочь. Дети очень рано умеют сотрудничать с людьми, это взаимодействие человека с компьютером. Если вы думаете об этом ребенке как о роботе, вам нужно спроектировать робота, и вы просто надеетесь, что он знает, что вы хотите делать Это основное проявление искусственного интеллекта.
Хотя люди в области искусственного интеллекта и когнитивистики, а в последнее время и в области робототехники интересуются этой проблемой, все привыкли говорить об этом и использовать какие-то игрушечные примеры в качестве примеров для анализа. Чтобы проводить исследования в реальном мире, вам нужно начать с компьютерного зрения. Что касается людей, занимающихся компьютерным зрением, то большинство из них заняты чисткой списка, и какое-то время они не поймут, что это проблема. Моя лаборатория взяла на себя инициативу и провела некоторые предварительные исследования, которые все еще продолжаются.
Сначала проведем простой эксперимент, как показано выше. Этот человек находится на кухне и в настоящее время использует микроволновую печь. За ним наблюдает камера, так же как и наблюдение, это могут быть и глаза робота (на фото слева). Сначала вы можете увидеть, на что он смотрит (на фото), а затем изменить перспективу и вычислить, что он видит в данный момент (на фото справа).
На картинке выше скриншот видео эксперимента. Предположим, что робот уже знаком с 3D-комнатой (рис. e) и наблюдает за человеком, который что-то делает в комнате (рис. a). Для облегчения понимания представим, что это дом престарелых или больничная палата, робот должен знать, что человек делает и на что смотрит (рисунок в). Его вход представляет собой просто двумерное видео (рис. а). Он начинает отслеживать траектории движения человека и места, куда он смотрит, показывая эти траектории на панели e и поведенческую классификацию на панели f. Затем изображение d (вверху справа) — это картина того, что он оценивает, на что должен смотреть человек. То есть привязывает его к этому человеку для восприятия. Этот результат хорошо согласуется с рисунком б. На картинке b изображен человек в очках, а в очках есть небольшая камера, чтобы записывать то, на что он на самом деле смотрит. Результаты этого эксперимента были предоставлены доктором Вэй Пингом, молодым учителем Чжэн Наньнина, бывшего президента Сианьского университета Цзяотун.
Необходимо размышлять о пространственно-временном взаимодействии между действием и объектом, трансформации действия во времени и зрительно-моторной координации. Затем угадайте, что он там делает, его намерения и т. д. Я не буду много говорить об этой детали.
Внутреннее состояние этого человека также может быть выражено с помощью STC-AOG и STC-PG, см. рисунок ниже, который примерно состоит из четырех частей.
1. Вероятностный «График И-ИЛИ» причинно-следственной связи в пространстве и времени, НТК-АОГ. Это общее знание о человеке, которое охватывает все возможности, и я остановлюсь на нем чуть позже. Остальное является выражением его текущего времени и пространства, которое представляет собой интерпретационную карту STC-PG. Этот граф интерпретации состоит из трех частей, которые выражены в виде трех треугольников, и каждый треугольник также является графом интерпретации STC-PG.
2. Текущая ситуация, представленная синим треугольником выше. Какова текущая ситуация, которая также является решением, граф интерпретации, представляющий визуальное понимание сцены между 0-t периодами времени.
3. Диаграмма намерения и планирования действий, представленная зеленым треугольником на рисунке выше. Это также диаграмма иерархической интерпретации, предсказывающая, что он будет делать дальше,
В-четвертых, текущее внимание, представленное красным треугольником выше. Опишите, на что он обращает внимание.
Если сложить воедино весь этот интерпретирующий график, то он в основном представляет прошлое, настоящее и будущее состояние нашего разума за короткий период времени. Объясните с помощью унифицированного STC-PG и STC-AOG. Это уровень разложения. Поскольку это композиция, требуется очень мало сэмплов.
Некоторые люди хотят сказать, что моя глубокая нейронная сеть тоже имеет слои, а их более 100 слоев. Я пытаюсь сказать, что ваши сто слоев на самом деле только один слой, верно? Поскольку вы делаете это распознавание по признакам, вы не знаете, что такое середина, и он не может объяснить средние процессы, только последний слой выводит категорию объекта.
Упомянутое выше выражение является оценкой внутреннего состояния человека роботом, эта оценка имеет апостериорную вероятность, эта оценка не единственна и имеет неопределенность. И это, конечно, не правда. Разные люди могут по-разному наблюдать за одним человеком. Затем в среде, где машины и люди сосуществуют, предположим, что в этой сцене есть N роботов или людей, и есть много N «я»-разумов. Затем у каждого человека есть оценка для других, которая имеет N x (N-1) выражений разума. Я знаю, о чем ты думаешь, ты знаешь, о чем я думаю, это по крайней мере квадрат. Если у тебя 100 друзей, ты будешь знать, что у него в голове. Чем ближе отношения, тем глубже и точнее понимание.
Конечно, здесь мы занимаемся рассуждениями только первого порядка, а в сложной и конфликтной среде людям приходится использовать выражения нескольких порядков. Когда Сыма И и Чжугэ Лян встретились в Цишане, Чжугэ Лян всегда был на шаг впереди Сыма И. Так называемый солдат никогда не устает обманывать, значит, иногда я намеренно передаю вам неверное сообщение.В «Романсе о трех королевствах» есть много таких замечательных историй, таких как Чжоу Юй, избивающий Хуанг Гая, и Цзян Ган, крадущий книги.
Я использую следующую диаграмму, чтобы грубо подвести итог. Два человека А и Б или один человек и один робот, паттерны выражения в их головах. Фигура представляет собой вложенную рекурсивную структуру, каждый эллипс представляет собой внутренний разум мозга.
В дополнение к упомянутым выше знаниям STC-AOG и состояниям STC-PG каждое сознание также содержит функцию ценности, то есть значение, и функцию решения. Ценности управляют действием, а затем изменяют мир в соответствии с восприятием и действием, так что выходит причина и следствие. Позже я подробно рассмотрю этот вопрос.
Эллипс внизу посередине представляет реальный мир (разум «Бога», только ТА знает истину, мы не знаем правды), а эллипс вверху посередине — консенсус. Слово многих людей есть социальный консенсус. На основе восприятия каждый образует единую вещь, вместе понимает, и мы приходим к консенсусу. Например, когда все едят вместе, блюдо подается, и все видят, что это за блюдо, если нет консенсуса, то нет возможности его приготовить. Например, «называть оленя лошадью» или «новой одеждой императора» — вот где возникают несоответствия между этими умами. Это проблема так называемой «гносеологии». Раньше, когда я изучал гносеологию в колледже, преподаватель давал расплывчатые и трудные для понимания выражения, теперь напишешь выражение и все понятно. Это также проблема, которую должен решить искусственный интеллект.
Нам нужно достичь консенсуса, общих знаний, а затем и общих ценностей в малой группе, в обществе в целом. Когда есть общие ценности, есть социальная мораль и этические нормы, которые можно вывести. Как говорится, делай как местные. Когда вы присоединяетесь к новой группе или социальной группе, вы можете сначала наблюдать, как все ведут себя и говорят. Чтобы роботы сосуществовали с людьми, они должны понимать социальную мораль и этические нормы человеческих групп. Следовательно, эта эпистемология — единственный путь развития роботов. Ворона знает, что делают люди, и может использовать это, чтобы выжить в обществе.
Так как же прийти к консенсусу? Язык является необходимым инструментом для формирования консенсуса.
Раздел 7 Лингвистическая коммуникация: когнитивная основа коммуникации
Третья область ИИ, которую я собираюсь осветить, — это язык, общение. Недавно я сделал две презентации на семинаре по интеграции зрения и языка, С моей точки зрения, зрение и язык неразделимы.
Центр человеческого языка уникален и интересно расположен рядом с зоной моторного планирования. Почему мы должны говорить? Происхождение языка заключается в передаче информационного выражения из разума человека только вам, которое включает в себя знание, внимание и намеренное планирование, упомянутые в предыдущем разделе, которые можно обобщить в выражения трех треугольников на рисунке. Есть надежда, что путем диалога будет достигнут консенсус и будет сформирован общий план миссии, что является нашим согласованным действием. Следовательно, в основе языкового производства лежит стремление людей к сотрудничеству.
Уже существуют богатые способы общения между животными, многие из которых полагаются на язык тела. Человеческий диалог не обязательно использует язык, язык жестов и пантомина также могут передавать много информации. Следовательно, до появления языка у людей уже была очень богатая познавательная база, то есть выражения, рассмотренные в предыдущем разделе. Без такой когнитивной основы язык является пустым символом, и диалог невозможен.
Эксперименты по психологии развития показали, что 12-месячные дети могут научиться указывать на предметы, но не в более раннем возрасте, а многие животные никогда не достигнут этого уровня. Например, кто-то провел эксперимент. В зоопарке сидела группа горилл, мать орангутанга взяла детеныша орангутанга, поиграла с детенышем орангутанга и исчезла, а потом мать пошла его искать. Вокруг сидит много праздных орангутанов и греются на солнышке, и они четко знают, куда делся маленький орангутанг. Если это человек, мы с энтузиазмом укажем в сторону этого ребенка.Люди рождены, чтобы сотрудничать, помогать другим, помогать другим, поэтому мы, люди, эволюционировали. У орангутанов нет, орангутаны не указывают, у них нет этого мотива, в их головах должно отсутствовать часть по сравнению с человеческими. По сравнению с людьми и животными, причина, по которой мы можем быть более продвинутыми, заключается в том, что в мозгу существует множество когнитивных структур для общения (например, многоуровневые сетевые протоколы связи) в коре головного мозга. Без этих когнитивных структур общение невозможно. . Люди, которые изучают язык, не изучают лежащую в их основе когнитивную структуру, и они не будут многообещающими. Следующая цифра получена от ведущей фигуры в антропологических исследованиях. Майкл Томаселло.
Помимо необходимости этой познавательной основы, изучение языка нельзя отделить от восприятия внешнего мира зрением и причинно-следственной аргументации движений роботов, иначе язык — это вода без источника и дерево без корней. Вот почему некоторые чат-боты в настоящее время «несут чушь».
Давайте сначала рассмотрим самый простой процесс: передачу информации. Когда отправитель (sender) хочет отправить сообщение получателю (receiver), это простое общение. Математической моделью этой связи является теория информации, предложенная Шенноном Шенноном в Bell Labs в 1948 году. Сначала закодируйте его, потому что он короче и быстрее для отправки; для шумового канала добавьте несколько избыточных кодов, чтобы предотвратить ошибки; затем декодируйте, и некий B получит информацию. Увидеть ниже.В этом процессе коммуникации у него есть два основных предположения. Во-первых, две стороны имеют общую кодовую книгу, иначе вы не сможете декодировать, что является основным предположением. Во-вторых, у нас есть общее знание о внешнем мире: все мы знаем, какие события происходят в мире, например, какие акции будут расти завтра, какая война, в каком месте и т. д. Сообщение, которое я вам передал, на самом деле является фрагментом карты интерпретации. (PG: анализ графа). Фрагмент этого графа интерпретации представляет собой описание состояния или возможного состояния нашего физического мира. Это состояние также может быть мыслью, чувством или беглостью в моем уме. Например, многие женщины берут трубку телефона и называют это «варкой каши», чтобы сообщить какие-то внутренние переживания и чувства.
Без этого общего внешнего мира я понятия не имею, о чем вы говорите. Например, когда иностранцы собираются вместе, чтобы рассказать анекдот, мы можем его не понять. Когда мы, китайцы, говорим "Лин Дайюй", это очень богатый культурный символ. Мы все знаем, кто такая Линь Дайюй. Настала очередь иностранцев, которые не могут понять ее жизненный опыт, эмоции, характер и ценности.
Теория связи Шеннона заботится только о создании кодовых книг (таких как видеокодек) и пропускной способности связи (3G, 4G, 5G). После введения теории информации в 1948 году, хотя многие умные люди и люди с сильными математическими знаниями пришли в эту область, в этой области не произошло большого прорыва. Зачем? Поскольку они игнорируют несколько более важных эпистемологических вопросов, они избегают говорить о них:
-
А должен подумать об этом: есть ли у Б общая модель мира с А в голове? Иначе после декодирования Б не сможет понять содержимое внутри? или неправильно понял. Поэтому, когда я посылаю эту информацию, формулировка должна свести к минимуму такие недоразумения.
-
А также следует задуматься: зачем посылать эту информацию? Знал ли Б об этом, но Гуань Б не обратил на эту информацию внимания? Вам нравится это слушать? Какова ваша реакция после прослушивания? Каковы последствия этого высказывания?
-
Вдумайтесь: зачем мне получать эту информацию? Что вы имели в виду, отправив его мне?
Это на когнитивном уровне, рекурсивное круговое познание, вне кодирования. Поэтому коммуникационная теория сводится к отправке, как и передатчики в здании телеграфа в прошлом, получая деньги и отправляя их, их не волнуют мотивы, содержание и последствия вашей отправки.
Глядя на человеческий язык, китайские иероглифы действительно замечательны. Так называемые иероглифы - это совершенно "четкая связь". Каждое слово — это картина окружающего мира, его можно понять с первого взгляда, не нужно кодировать или расшифровывать. Я думаю, что людям, изучающим естественный язык, и людям, изучающим визуальное статистическое моделирование, следует внимательно присмотреться к китайскому оракулу, и тогда все станет ясно. Каждый скрипт кости оракула представляет собой картинку, что это за картинка? Он представляет собой фрагмент графа разбора.
Изображение выше представляет собой диаграмму эволюции и взаимосвязи китайских иероглифов, полученную из книги под названием «Дерево китайских иероглифов». Несколько лет назад я посетил Тайвань и нашел эту серию очень интересных книг. Рисунок представляет собой серию текста, начинающуюся с глаз.
Прежде всего, начните с образного предмета.Посередине находится глаз, слово «глаз», и положите руку на глаз.Король обезьян часто имеет это действие, то есть «смотреть».
Затем следует понимание, такое как «сохранить», то есть внимательно смотреть, ясно видеть вещи, рисовать на глазу маленький листик и давать указание смотреть на то, что находится внутри листа, указывая на то, что вам нужно смотреть. внимательно.
Затем я начал выражать абстрактные понятия, как выражать атрибуты, время и пространство, в нашем сценарии кости оракула, что означает начало, конец, выражение человеческих отношений, состояние голов людей и даже выражение этики и морали. Таким образом, это было выведено.
Следовательно, те, кто занимается визуальным познанием, должны вернуться в каменный век, чтобы понять функцию предметов, а те, кто занимается языком, должны проследить свое происхождение до происхождения языка.
На картинке ниже другой пример: солнце, луна, горы, вода, лес, птицы, куры, рыбы, слоны, овцы. Приведенные ниже цветные изображения представляют собой графовые модели экспрессии некоторых объектов, полученные из изображений с помощью технологии компьютерного зрения в нашей лаборатории. Эта техника представляет собой неконтролируемое обучение, проводимое доктором Йихонгом, директором Чжаном и т. д. Их алгоритм нашел «оракулоподобные» существительные символы, представляющие птиц, такие как головы, тела и ноги, водные волны и водные растения. Эта модель визуального представления объяснима и интуитивно понятна.
Итак, с точки зрения генеративной модели, язык — это видение, а видение — это язык.
Давайте снова посмотрим на глаголы. Проверьте себя, что это значит? Первое слово, две руки, веревка, волочи что-то по земле, бери веревку и тяни. Второй простой, мойте руки. Третье — закрыть дверь. Четвертое - вспомогательное слово, одна рука подтягивает другую руку. Пятая тоже две руки, одна вниз, а другая вверх, что это значит? Я даю тебе что-то, и ты принимаешь это. Шестое — раздор раздора, две руки борются в противоположных направлениях. Седьмой два человека болтают. В основном слова уже представляют собой детали движений между людьми.
Теперь в моей лаборатории компьютер также может автоматически выучить выражение «Oracle-подобных» глаголов, как показано на рисунке ниже. Действия, которые мы научились взаимодействовать между двумя людьми, включают в себя: сидение, игру с мобильными телефонами, рукопожатие, притягивание людей и так далее. Мы называем эти модели действия 4DHOI (четырехмерное взаимодействие человека и объекта), 4Dhoi (четырехмерное взаимодействие руки и объекта) и 4DHHI (четырехмерное взаимодействие человека и человека).
Я только что говорил о существительных и глаголах, и есть много других вещей. Я предлагаю вам изучить это. Если вы хотите построить модель, наш древний сценарий кости оракула на самом деле является моделью. Он может выразить все, что нужно выражается в нашем мире Да, это полная языковая модель.
Приведу еще один сложный и абстрактный пример, как мы, древние, определяли этику и мораль, очень красиво!
Как упоминалось во введении, всех беспокоит, не поставят ли роботы под угрозу выживание людей после того, как они войдут в общество, поэтому это вызвало много дискуссий. Однажды я был на внутренней конференции DARPA, и на конференцию были приглашены профессора из всех слоев общества, чтобы обсудить этот вопрос, из социальной этики, когнитивистики, искусственного интеллекта и других дисциплин. Все не согласны. Когда подошла моя очередь выступить с докладом, я сказал, что на самом деле мудрость древних китайцев уже разобралась в этом вопросе.
Как определить слово «де» в этике и морали? Что такое мораль?
Что такое этика, это относительное определение, которое меняется со временем и людьми. Когда я впервые приехал в Соединенные Штаты, аборты и гомосексуальность в американском обществе были запрещены, сейчас все в порядке. В Китае женщинам не разрешалось вступать в повторный брак. Еще десятилетия назад я слышал такое правило в своем родном городе: если женщина идет по дороге и ее тень падает на старшего, это неуважение, поэтому нужно избегать прогулок, что является социальной нормой.
Китайское слово «Германия», вы можете видеть, что левая сторона находится рядом с двойным человеком, но на самом деле рядом с двойным человеком нет двух человек Надпись на кости оракула рядом с двойным человеком рисует перекресток (см. картинка крайняя справа) Перекрёсток означает, что вам предстоит сделать выбор, это решение. Как вы выбираете? Например, если старик падает на землю, вы поддерживаете его или нет? Это выбор. Коррупция или нет, брать взятки или нет - это выбор сердца. Этот выбор сделан в вашем сердце, поэтому ниже есть сердечное слово.
Так как же узнать, этичны ли ваши внутренние решения? Общество не может перечислить большое количество правил одно за другим, и один китайский иероглиф не может выразить так много содержания. Над словом "Германия" крестик, а под крестиком четверка.На самом деле это не четверка, а глаз, а десять глаз смотрят на тебя. О нем судят массы. Это равносильно присяжным на Западе, присяжные избираются из простых людей (это еще одна правовая норма). Если они считают то, что вы делаете, приемлемым, это нравственно, а если нет, то это аморально. Поэтому, когда вы делаете выбор, вы должны учитывать мнение окружающих вас людей и то, что они будут думать в своих головах, прежде чем решить, делать это дело или нет.
Итак, если у вас нет когнитивной основы, упомянутой в предыдущем разделе, то есть если вы не можете делать выводы о мыслях других людей, вы не можете познать мораль. Очень важная проблема при исследовании роботов заключается в том, что они не знают, делать ли то, что собирается делать машина. Затем он сначала думает об этом (эквивалент симуляции дедукции на шахматной доске): как мне это сделать, как отреагируют люди, если ответ хороший, делайте, если ответ плохой, не делайте, есть такое. правило. Поддержание статус-кво.
Так откуда он знает, что вы думаете? Сначала он должен узнать вас, что вам нравится и что вам не нравится. Все люди разные, вы в другой группе, какие слова говорить, а какие не говорить, все знают в душе, это взаимодействие, как можно взаимодействовать без этих знаний?
Поэтому я до сих пор считаю, что наши древние люди были очень мудры, и мыслили гораздо глубже, чем наши нынешние, и одним словом можно очень остро объяснить проблему. Большинство из нас сейчас не хотят думать о проблемах, потому что больше не нужно думать о проблемах.Повсюду много средств массовой информации и рекламы, которые постоянно привлекают ваше внимание. глядя на это. Просто веселиться.
Теперь вернемся к вопросу вербального общения, диалога человека и робота. На рисунке ниже представлена предложенная мной когнитивная модель.
Между двумя людьми должно быть выражено не менее пяти головных мыслей: что я знаю, что ты знаешь, что я знаю, что ты знаешь, что ты знаешь, что я знаю, и что мы знаем вместе. Кроме того, каковы ваши намерения во время разговора и так далее. Я не буду говорить об этом более конкретно.Наконец, я хочу поговорить о более глубокой связи между языком и зрением и о связи между алгебраической топологией в математике. Что означает топология? Другими словами, образное пространство, языковое пространство — это большая коллекция, полная коллекция. Каждое из наших понятий часто является его подмножеством, например, все изображения — это множество, миллион пикселей — это миллиономерное пространство, а каждое изображение — это точка в этом миллиономерном пространстве. Лицо — это понятие. Все лица — это подмножество этого миллиономерного пространства, но это подмножество должно быть связано с другими подмножествами. Это отношение называется топологическим отношением. Компьютерщики называют это синтаксисом, что соответствует алгебраической топологии. Например, голова и шея соответствуют плечам, с большой вероятностью. Структура этого пространства образов на самом деле является грамматикой, и эта грамматика есть STC-AOG, сумма или граф пространственно-временной причинности. Грамматика может вывести «язык», который представляет собой общий набор грамматических предложений. STC-AOG — это общее выражение знания, и каждый пример, который мы видим, — это граф пространственно-временной каузальной интерпретации STC-PG, полученный из STC-AOG. Его использует компьютерное зрение, его должен использовать язык, это — познание, и планирование задач робота — тоже. Это унифицированное выражение.
Раздел 8. Этика игры: приобретение и распространение человеческих ценностей
Чтобы робот мог общаться с людьми, он должен понимать человеческие ценности. В философии и экономике существует базовое положение о том, что рациональный человек (рациональный агент), чье поведение и принятие решений руководствуются интересами и ценностями, всегда стремится максимизировать свои собственные интересы. Противоположностью этому является иррациональный человек. Для рационального человека вы можете перевернуть разум, научиться и оценить его ценности, наблюдая за его поведением и выбором. Мы временно исключаем возможность того, что он намеренно делает вид, что сбивает нас с толку.
Мы выражаем это значение как функцию полезности, представленную символом U. Обычно он состоит из двух частей: (1) функция потери потерь или функция вознаграждения вознаграждения; (2) функция потребления затрат. Другими словами, сколько пользы вы получаете от выполнения одного действия и сколько оно стоит. Мы можем определить эту функцию интереса в пространстве потоков. Каждый раз, когда мы действуем, мы меняем некоторые модели потока, чтобы двигаться вверх в пространстве, определяемом U, то есть «оценке». Если вектор состояния жидкости F дифференцировать по функции U, получается «поле».
Для обзора высшей математики предположим, что ценностные ориентации человека не противоречивы в определенное время. Например, если он думает, что А лучше, чем В, В лучше, чем С, а затем С лучше, чем А, то цикл повторяется, и значения не подходят. Это «вихрь» в теории поля. Поле, в котором «нет спина» всюду, называется консервативным полем. Его значение U является функцией потенциальной энергии.
Так называемое «люди поднимаются вверх, а вода течет вниз» относится к двум разным явлениям общества и физики, и суть их совершенно одинакова. То есть люди и вода движутся согласно своим потенциальным энергетическим функциям! Так что же представляет собой функция потенциальной энергии, которая движет людьми?
У людей разные ценности, даже если это один и тот же человек, их ценности меняются. В этой статье не обсуждаются эти ценности социального уровня, мы ссылаемся на некоторые из самых основных, основанных на здравом смысле, общечеловеческих ценностей. Например, убрать комнату, это наш консенсус.
На картинке выше показан простой эксперимент, который я провел. У меня в офисе (слева) и в лаборатории (справа) есть несколько разных стульев и табуретов. Затем я подсчитал, на каком стуле ученик любит сидеть после того, как войдет, и может сесть на землю, если не может. Так что я могу получить вид этих стульев. A, B, C, D, E, F, G отсортированы, см. статистический график выше. Я посмотрел на выбор этих людей и спросил: чем этот стул лучше того? то, что хорошо? На самом деле это отражает базовую ценностную функцию человеческого мозга. Скажем еще раз: очень обычное повседневное явление с глубокой тропой. Не так ли приземлилась Apple, все к этому привыкли, так что не задавайте этот вопрос.
Для того, чтобы ответить на вопрос, два моих докторанта, Чжу Исинь и Цзян Фаньфу, который занимается физикой и графикой (он как раз уехал в Упенн в качестве доцента Пенсильванского университета), использовали физическую модель графики для смоделируйте различные позы человека, а затем вычислите карту распределения силы нескольких основных частей тела, когда эти сидячие положения находятся на этих стульях. См. график ниже, например, какая сила прикладывается к спине, бедрам и голове.
Синяя гистограмма на рисунке ниже показывает распределение силы шести частей тела. Исходя из этого, мы можем вычислить функцию ценности каждого измерения. Шесть красных кривых на рисунке ниже представляют собой функции с отрицательными значениями.Когда сидячая поза человека создает силу на каждую часть с более низким значением, чем красная линия, существует более высокое «значение», то есть «удобное» сидение. Конечно, все могут быть разными: у кого-то болит спина, и он вынужден сидеть на жестком табурете, а кому-то нравится сидеть на мягком диване. Вот почему, если вы наблюдаете что-то странное, вы можете сделать вывод, что человек может быть где-то ранен.
Читая это, вы не можете не задаться вопросом: не то же ли это, что и функция потенциальной энергии в физике, например гравитационное поле? Да, это правда. Об этом я и скажу в последнем разделе: теоретические системы Дарвина и Ньютона должны быть унифицированы.
Для нас это здравый смысл, но роботу приходится много такого здравого смысла вычислять, а ТА нужно ставить себя на место человека, что непросто.
Складывание одежды — еще один пример того, что мы делаем. Если мы визуализируем эту консервативную функцию потенциальной энергии в виде топографической карты, процесс складывания предмета одежды подобен прохождению альпинистской тропы. Изначально мы испортили это платье, и соответствующее ему состояние было внизу долины, а когда оно было окончательно свернуто, оно было эквивалентно достижению вершины горы. Каждое действие имеет награду. По вашему процессу складывания одежды я в основном нарисовал форму этой горы, и машина будет знать суть задачи складывания одежды. Вы даете ему новую одежду, и он тоже складывается. Роботы могут судить о ваших ценностях.
В последнее время все больше говорят о роботах, играющих в шахматы, особенно в го, что действительно действует на нервы китайцев. Ключевым моментом в шахматной программе является изучение функции ценности, то есть для каждой возможной шахматной позиции она должна иметь правильное оценочное суждение. В последнее время также стали популярными различные игры и обучение с подкреплением. Но эти исследования играют в простом символическом пространстве. Два примера, которые я сделал в своей лаборатории, изучали функцию ценности людей в реальном мире.
С функцией ценности в среде с несколькими людьми существует конкуренция и сотрудничество, формирующие социальные нормы и этику, о которых мы говорили в предыдущем разделе. Эти этические и социальные нормы представляют собой временные состояния квазиравновесия, достигаемые толпой в условиях конкуренции и сотрудничества в условиях ограничений внешней физической среды и причинности. Каждое состояние равновесия не обязательно является фиксированным правилом, требующим от всех выполнения одних и тех же предписанных действий, а вероятностной «грамматикой поведения». Правила на самом деле являются грамматикой. В конечном счете это все-таки выражение вероятностной пространственно-временной причинно-следственной связи ИЛИ графа СТК-АОГ.
В процессе социальной эволюции из-за изменения определенных пограничных условий (таких как новые технологические изобретения, такие как Интернет, искусственный интеллект) или изменений в политике (таких как реформы и открытость) старый баланс нарушается, и общество быстро меняется, затем наступает новое квазиравновесное состояние. Тогда социальной норме соответствует другой пространственно-временной причинно-следственный И-ИЛИ граф СТК-АОГ. Если взять квазиравновесную модель СТК-АОГ и перейти к другой квазиравновесной жизни, происходит явление так называемой «акклиматизации».
Кстати говоря, я хотел бы сравнить два основных типа методов обучения.
1. Индуктивное обучение. При наблюдении за большим количеством выборок данных эти выборки представляют собой наблюдения за квазиравновесием, достигнутым определенным периодом, определенным регионом и определенным населением. Это также формирование и наследование тысячелетней культуры, о которой я говорил ранее. Результатом индуктивного обучения является вероятностная модель пространственно-временной причинности, которую я выражаю как STC-AOG. Действие каждого пространства-времени есть ПВК-ПГ, граф интерпретации.
2. Дедуктивное обучение. Литературы по этому поводу очень мало, то есть, исходя из функции цены (и физической причинности), прямо выводятся эти квазиравновесные состояния.По-моему, это тоже СТК-АОГ. Это требует глубокой генеративной модели и понимания объекта исследования. Например, когда Чжугэ Лян прибыл в Цишань, он сначала проверил местность, знал свою команду, ситуацию с едой и фуражом и выяснил ситуацию (включая личность) своего противника Сыма И. Затем он вывел в голове, и он знал, как это устроить.
Человеческое обучение часто является комбинацией этих двух. Когда я был молод, больше использовалось индуктивное обучение, а дедуктивное обучение часто было незрелым импульсом, платным за обучение, но также можно было открывать новые горизонты. Когда дело доходит до «пятидесяти без путаницы», значения обрели форму, и пространство, охваченное значениями, в основном завершено, поэтому в основном используется дедуктивное обучение.
AlphaGo сначала изучил большое количество человеческих шахматных партий с помощью индуктивного обучения, а затем, совсем недавно, это было полностью дедуктивное обучение. Игровое пространство AlphaGo по-прежнему несопоставимо с космической сложностью человеческого существования. При этом причинно-следственную связь учитывать не нужно, а ход сделать обязательно. Исход каждого действия человека имеет много неопределенностей, поэтому он намного сложнее.
Раздел 9 Робототехника: создание платформ для больших задач
В четвертом разделе я говорил о когнитивной архитектуре исследований искусственного интеллекта, которая должна быть парадигмой малых данных и больших задач. Роботы — это такая масштабная научно-исследовательская платформа. Он не только должен планировать такие задачи, как визуальное распознавание, вербальное общение, когнитивное мышление, но также выполняет большое количество действий по изменению окружающей среды. Я не буду вводить эти проблемы механического управления и буду использовать общую платформу роботов, представленную на рынке.
Как упоминалось ранее, люди и роботы должны выполнять задачи и разлагать задачи на ряд действий, каждое из которых должно изменить поток в окружающей среде.
Я разделяю режимы течения на две категории:
(1) Физические навыки: в левой части рисунка ниже нарисуйте, вскипятите воду, вымойте пол и нарежьте овощи.
(2) Социальное бегство: как показано в правой части рисунка ниже, еда, питье, преследование и поддержка должны изменить ваше внутреннее биологическое состояние или ваши отношения с другими.
После того, как робот реконструирует 3D-сцену (об этом упоминалось, когда речь шла о зрении, на самом деле это итеративный процесс генерации с задачами и функциональными рассуждениями), он смотрит на сцену с точки зрения полезности и задач. Как показано на картинке ниже, где стоять, где сидеть, куда наливать воду и т.д. Выделенные области на рисунке ниже указывают на то, что действие может быть выполнено. Эти карты также называются картами доступности в планировании роботов. Значение: что эта сцена может предложить вам?
С помощью этих карт отдельных основных задач робот может планировать задачи. Сам план представляет собой иерархическое выражение. В литературе есть много методов, и я до сих пор называю это своего рода STC-PG. Этот процесс на самом деле довольно сложный, потому что при его выполнении приходится постоянно смотреть и обновлять модель сцены. Поскольку я упоминал ранее, точность расчета трехмерной формы среды определяется в соответствии с потребностями задачи, то есть визуальным выражением, ориентированным на задачу.
В этом процессе планирования действий также учитываются причина и следствие, а также реакция других участников сцены. Чем больше вещей учтено, тем более зрелым он будет, и чем более уместным он будет, тем менее безрассудным он будет.
В соревновании по робототехнике, о котором я упоминал в начале, эти задачи восприятия и планирования фактически передаются группе людей, которыми дистанционно управляют в фоновом режиме.
Ниже я кратко представлю несколько предварительных демонстрационных результатов, полученных в моей лаборатории, и на заднем плане нет дистанционного управления. В моей лаборатории используется стандартный робот Baxter с карданным основанием и двумя захватами, а также некоторыми датчиками, камерами и т. д. Два захвата разные, левая рука сильная, а правая рука гибкая. Очень интересно, что если вы наблюдали за такими животными, как лобстеры, у него два щипца тоже разные, один используется для раздавливания, а другой зазубренный.
На изображении ниже показан докторант Шу Тяньминь, обучающий робота некоторым социальным действиям, таким как рукопожатие. Рукопожатие может показаться обычным, но на самом деле оно очень нежное. Но в процессе обхода и рукопожатия человеку действительно нужно много раз судить о намерениях другого человека, иначе возникнет неловкая ситуация. Статья Шу была опубликована в СМИ США.
На следующем групповом изображении изображен робот, выполняющий комплексную задачу. Сначала он услышал, как кто-то стучит в дверь, сделал вывод, что кто-то входит, и пошел открывать дверь. Во-вторых, видит, что у человека в руке коробка из-под торта, руки заняты, значит, ему нужна помощь. Из диалога он узнает, что другая сторона хочет положить торт в холодильник, поэтому помогает человеку открыть дверцу холодильника (вверху справа). После того, как мужчина сел, одним из его движений было схватить банку кока-колы, встряхнуть ее и поставить. Он должен сделать вывод, что человек пьет воду, а банка из-под кока-колы пуста (невидимый поток). Предполагая, что он знает, что в холодильнике есть кока-кола, он открывает дверцу холодильника за собой, чтобы взять кока-колу и передать ее человеку.
Конечно, это среда с ограничениями, и если вы хотите иметь возможность внедрить такую функцию в любую сцену, она может быть близка к респектабельному ворону, о котором мы упоминали ранее. Мы все еще работаем над этим!
Раздел 10 Машинное обучение: пределы обучения и «проблема удержания»
Обсужденные выше пять областей относятся к «проблемным областям» на различных уровнях, называемых доменами. Мы стремимся думать об этих проблемах в рамках, ища единое выражение и алгоритм. Последнее машинное обучение, которое необходимо ввести, — это изучение и решение «методов» (Methods), изучение того, как подобрать и получить вышеуказанные знания. Например, эти пять полей подобны пяти видам гвоздей Машинное обучение — это изучение молотков в надежде забить в них эти гвозди. Глубокое обучение похоже на хороший молоток. Конечно, люди из пяти областей также изобрели множество молотков. Просто молот глубокого обучения стал популярнее в последние годы.
В Интернете много дискуссий о машинном обучении, и здесь я подниму основной вопрос для обсуждения с вами: предел обучения и «проблема остановки».
Как мы все знаем, в информатике существует знаменитая проблема остановки Тьюринга, которая заключается в том, чтобы определить, остановится ли машина Тьюринга в процессе вычислений. Я предлагаю проблему остановки обучения: обучение должно быть непрерывным процессом общения и общения, которое основано на нашей когнитивной структуре. Итак, при каких условиях процесс обучения прекращается? Когда процесс обучения прекращается, система достигает своего предела. Например, некоторые люди решают не учиться раньше.
Во-первых, чему именно учится?
Нынешнее машинное обучение, которым занимаются все, на самом деле является очень узким определением, которое не отражает весь процесс обучения. Увидеть ниже. Он состоит из трех шагов:
(1) Вы определяете функцию потерь функции потерь, обозначаемую как u, которая представляет собой небольшую задачу, такую как распознавание лиц, вознаграждение 1, если оно верное, и -1, если оно ошибочно.
(2) Вы выбираете модель, такую как 10-слойная нейронная сеть, с сотнями миллионов тета-параметров, которые должны соответствовать данным.
(3) Вы получаете много данных Здесь предполагается, что кто-то подготовил для вас размеченные данные, а затем начинает подгонять параметры.
Этот процесс не имеет причин и следствий, никаких роботизированных действий и представляет собой чистое пассивное статистическое обучение. В настоящее время в эту категорию входят те, кто занимается визуальным распознаванием и распознаванием речи.
По сути, настоящее обучение — это интерактивный процесс. Точно так же, как диалог между Конфуцием и студентами, мы обучаем студентов такому процессу. Учащиеся могут спрашивать учителя, учитель спрашивает учеников и думать вместе. Откровенно говоря, хоть я и профессор, но теперь часто узнаю что-то новое от своих аспирантов.
Этот процесс обучения основан на когнитивной структуре (структура, обсуждаемая в разделе 6). Я называю это обобщенное обучение коммуникативным обучением, как показано на рисунке ниже.
На этой картинке показано общение между двумя людьми, А и Б, один учитель, а другой ученик, это полностью равноправная структура, отражающая, что преподавание и обучение представляют собой равный интерактивный процесс. Каждый эллипс представляет головной мозг, который содержит три блока: тета знаний, функция принятия решений пи и функция ценности мю. Эллипс внизу представляет физический мир, который Бог знает в своей голове. Эллипс в середине вверху представляет консенсус, достигнутый обеими сторонами.
Эта структура обучения общению содержит большое количество режимов обучения, включая следующие семь режимов обучения (каждый режим обучения фактически соответствует одной или нескольким стрелкам на рисунке), и существует множество режимов, которые можно разработать.
(1) Пассивное статистическое обучение: самая популярная модель обучения, упомянутая выше, которая использует большие данные для соответствия модели.
(2) Активное обучение: учащиеся могут попросить учителей запросить данные, что также популярно в машинном обучении.
(3) Алгоритмическое обучение: учителя активно отслеживают прогресс и способности учащихся, а затем разрабатывают примеры, которые помогут вам учиться. Это относительно дорогой, идеальный метод обучения для отличных учителей.
(4) Демонстрационное обучение, обучение на демонстрации: это обычно используется в дисциплинах робототехники, то есть побуждает робота выполнять действия. Вариант - имитационное обучение.
(5) Перцептивная причинность Изучение перцептивной причинности: Это своего рода причинная модель, которую я изобрел. Это причинная модель, которую изучают, наблюдая причинность поведения других людей без необходимости экспериментальной проверки. Это очень распространено в человеческом познании. .
(6) Причинное обучение: посредством практических экспериментов контролируются другие переменные для получения более надежной причинно-следственной модели.Научные эксперименты часто попадают в эту категорию.
(7) Обучение с подкреплением Обучение с подкреплением: это метод изучения функции принятия решения и функции ценности.
Как я упоминал в первом разделе, глубокое обучение — это лишь небольшая часть этой обобщенной структуры обучения, а обучение — это область искусственного интеллекта. Поэтому приравнивать глубокое обучение к искусственному интеллекту — это действительно смотреть в небо и видеть леопарда.
Во-вторых, каковы пределы обучения? Каковы условия отключения?
Для пассивного статистического обучения в литературе существует множество верхних границ размера выборки или частоты ошибок. Пределы обучения, о которых я здесь говорю, выходят далеко за рамки этих определений. Я имею в виду, может ли этот обобщенный процесс обучения сходиться? Где он сходится? Проблема прекращения обучения заключается в том, как прекратить процесс обучения. По этим вопросам мы с У Иннянем пишем обзорную статью.
Процесс нашего обучения и разговора на самом деле является процессом некой информации, протекающей между этими эллипсами. Итак, есть много факторов, влияющих на этот поток, я перечислю некоторые из них.
(1) Мотивация преподавания и обучения: когда учитель хочет дать ученикам знания, решения и ценности, прежде всего, он должен подтвердить, что он знает, а ученики этого не знают. Точно так же, когда ученик спрашивает учителя, он тоже должен понимать, что он не знает, а учитель знает. Ключевым моментом является то, что обе стороны имеют точную оценку себя и другого.
(2) Метод преподавания и обучения: если учитель точно знает прогресс учеников, он может точно дать новое знание, а не повторять его. Это очевидно в алгоритмическом обучении и перцептивной причинности.
(3) IQ вопрос: как измерить IQ машины? Многие животные, некоторым понятиям вы не можете научить, как бы вы их ни учили.
(4) Функция ценности: если вас не интересуют какие-то знания, вы, конечно же, не хотите их изучать. Люди с разными ценностями вообще не могут общаться, не говоря уже о том, чтобы слушать и учиться друг у друга. Например, некоторые люди в группе WeChat не могут оставаться и выходить из группы, потому что они отличаются от вас, и они не могут сойтись вместе Наконец, люди в одной группе сходятся и усиливают друг друга. Это в какой-то степени разделило общество.
Условия установки этого условия обучения различны, и обучение людей определенно не будет сходиться в одном и том же месте. В Китае 1,4 млрд человек, а разных моделей мозга 1,4 млрд. Среди этих 1,4 млрд людей есть какие-то консенсусы, то есть общие модели.
Проблема отключения, о которой я говорю, — это различные состояния равновесия, достигаемые в этом динамическом процессе.
Резюме раздела 11: Наука об интеллекте — объединение теоретических систем Ньютона и Дарвина
До сих пор я кратко представил некоторые передовые проблемы в шести областях искусственного интеллекта, надеясь помочь вам увидеть общую схему и контекст.На мой взгляд, они движутся к единству в рамках общей когнитивной структуры. Есть много интересных пограничных тем, которые ждут, чтобы их исследовали молодые люди.
Так как же шесть областей искусственного интеллекта, или «Шесть героев периода Воюющих царств», превращаются из нынешней шумной инженерной практики в зрелую научную систему? От искусственного интеллекта к науке об интеллекте или науке об интеллекте — какой должна быть эта единая научная система?
Что такое наука? Физика на сегодняшний день является наиболее развитой наукой, и мы можем извлечь уроки из истории развития физики. Особенно мне нравится физика.Когда я подал заявку в Университет науки и технологий Китая в 1986 году, я заполнил желание современной физики (4 факультета). Заполнив заявление, я вернулся в деревню. Мой брат в то время был городским кадром.Он пошел в старшую школу, чтобы проверить мое добровольное заявление.Когда он увидел, что приложение было физикой, он испугался, что не сможет найти работу в будущем, поэтому он изменил мое приложение к компьютеру. В то время мы никогда не видели компьютера, и он не обсуждал это со мной, так что я наткнулся на эту зарождающуюся профессию по ошибке, но я все время думал о красоте физики.
Когда начнется школа, я пройду курс "Введение в механику". Учебник был написан исполнительным вице-президентом и его женой в то время. Не буду здесь называть имя. Все знают, что это вечная память Поколение ХКУСТ. Когда я открыл первую страницу книги, меня поразил текст введения. Ниже приведен скриншот с двумя ключевыми предложениями, и обсуждение выглядит следующим образом.
(1) Развитие физики — это история стремления к единству физического мира. Первым крупным объединением была классическая механика Ньютона, которая дала единое объяснение движения небесных звезд и движения кажущихся сложными объектов в вековом мире за счет всемирного тяготения. Формирование научной системы с тех пор укрепило всеобщее убеждение:
«В физическом мире существует полная цепь причин и следствий».
Обязанность физики — найти объединяющие силы, управляющие явлениями природы.
Это все убеждения, если вы в это верите, потрудитесь для этого! Спустя более 300 лет после Ньютона физики все еще изо всех сил пытаются шаг за шагом открыть замечательную модель Вселенной.
Жаль, что по сравнению с физикой исследования искусственного интеллекта до сих пор уделяли мало внимания этой научной проблеме. Топовые инженерные школы этому тоже не учат, все заняты обучением каким-то навыкам. Решите несколько небольших проблем, и жизнь может наладиться. В 1980-е годы некоторые известные профессора публично заявляли, что феномен интеллекта настолько сложен, что единого объяснения дать невозможно, и это, скорее, «мешок хитростей». Есть некоторые инженерные правила «солдат заблокировать, вода накрыть». Это, конечно, поверхностно и недальновидно.
Мой научный руководитель Мамфорд переключился с чистой математики на изучение и исследование искусственного интеллекта в 1980 г. Его идеалом было построить математику интеллекта для интеллекта. Совершить этот переход в его качестве крайне сложно (у него много страшных титулов, в том числе Филдсовская премия, Премия Макартура «Гений», Президент Международной ассоциации математиков, Национальная медаль науки), и мне еще предстоит увидеть второго человека, который претерпел такую трансформацию. Когда я закончил колледж в 1991 году, в моем Заявлении о целях для аспирантуры было загадочное предложение изучить такую унифицированную структуру. В то время не было интернета, и я ничего не слышал о Мамфорде. Я помню, что на кафедре компьютерных наук Университета науки и технологии как раз появился первый лазерный принтер, заменивший игольчатую печать. Я купил две пачки сигарет "Фозилинг" брату, заведующему компьютерным залом, и попросил его помочь мне напечатать и распечатать личное заявление на трех страницах! В результате большинство школ отклонили мое заявление, и мой консультант принял меня в Гарвард для получения степени доктора философии. В том же году, Ву Иннянь, младший студент факультета информатики HKUST, поступил в Гарвард, чтобы получить докторскую степень по статистике, и мы стали соседями по комнате. Он глубоко разбирается в физике и статистике, и мы работаем вместе последние 25 лет. Оглядываясь назад, какое счастье в жизни!
(2) Физика исключает из исследования биологическую волю, а именно это и хочет изучать наука об интеллекте. Наука об интеллекте изучает сложную систему, в которой смешиваются физика и биология. Как явление интеллект проявляется во взаимодействии и поведении индивидов с природой и социальными группами. Лично я считаю, что эти поведения и явления должны описываться едиными силами, взаимодействиями, базовыми элементами. На самом деле эти понятия не чужды нам, тем, кто занимается компьютерным зрением. Наша модель полностью согласуется с физической моделью: когда у вас есть распределение вероятностей, у вас есть «функция потенциальной энергии», у вас есть различные «взаимодействия», а затем у вас есть различные «поля» и «силы».
Эти вопросы ранее изучались без данных, как сказал Эйнштейн, «…но дерзкое пожелание, проблемный идеал философской школы». А теперь все в порядке, я приводил несколько примеров ранее: дробление грецких орехов, сидение на стульях, складывание одежды. Мы можем вывести различные взаимодействующие силы из данных, чтобы объяснить различное человеческое поведение. Недавно двое моих студентов, Се Дань и Шу Тяньминь, использовали «социальные силы и поля» для объяснения человеческого взаимодействия. Шу также получил «Премию за вычислительное моделирование» от Международного когнитивного общества в 2017 году. В будущем мы напишем статью об этой работе.
Сложности науки об интеллекте:
(1) Физика сталкивается с объективным миром, когда этот объективный мир отображается в каждом человеческом мозгу, формируется мир субъективного и объективного слияния, то есть модель в каждом человеческом мозгу (это байесовский подход в статистике. зрения). Затем эта модель отображается в чьей-то голове. Каждый Brain Mind содержит оценки из сотен других моделей. Движение и поведение человека управляются этими моделями.
(2) Физика может вычленять и изучать различные явления, а наш образ содержит большое количество закономерностей Простое действие человека содержит очень сложную психологическую деятельность, которую трудно вычленить. Тем более, что нынешняя школа «глубокого обучения» и «подметающий список» на основе больших наборов данных очень популярны — если вы хотите изучить маленькую проблему отдельно, в их сложных наборах данных это будет недешево. Когда им присылают статью, они «категорически отказываются» и просят прогнать результаты на их наборе данных. Этим людям не хватает научного мышления и грамотности. Ууууу!
Возвращаясь к предыдущему примеру с вороной, я говорил в разделе 4, что физические и биологические системы, которые мы изучаем, имеют две основные предпосылки:
1. Врожденные задачи и цепочки создания стоимости разумных видов.Это «жесткая потребность» биологической эволюции.Поведение животных обусловлено различными задачами, а задачи определяются функцией ценности, а последняя является фенотипическим ландшафтом в теории эволюции, то есть выживанием самые приспособленные в эволюции. Концепция эволюции была предложена в теории эволюции Дарвина, но не дано математического описания. Позже было обнаружено, что генетическая мутация на самом деле является действием вида в этой эволюционной крупномасштабной функции ценности. Топографическая карта функции ценности складывания одежды передо мной была заимствована из биологии.
два,Объективная реальность и причинно-следственная связь физической среды.Это физический мир и причинно-следственная цепь в естественном масштабе, составляющая основу ньютоновской механики.
В конечном счете, если искусственный интеллект должен стать интеллектуальной наукой, то это будет, по сути, объединение двух теоретических систем Дарвина и Ньютона.
В 2016 году я поехал в Оксфордский университет, чтобы провести встречу по сотрудничеству в рамках проекта, и, кстати, посетил собор Вестминстерского аббатства в Лондоне. Что меня удивило, так это то, что могилы Ньютона (1642-1727) и Дарвина (1809-1882) находились на расстоянии всего 2-3 метра друг от друга. Стоя там, я был очень эмоционален. Об этих двух людях можно сказать, что они величайшие научные гиганты, полностью изменившие мировоззрение человечества, но сколько времени потребуется для объединения их великих теоретических систем и идей?
Набросок этой длинной статьи был написан поздней осенью, что напомнило мне об осенних стихах Лю Юйси, поэта династии Тан.
«Издревле осень печальна и одинока, я говорю, что осень лучше весны.
Когда небо чистое, журавль взводит облака, и поэзия возносится в небо. "
приложение
Интерактивная запись отчета «Семинар по передовым технологиям искусственного интеллекта — взаимодействие человека и компьютера», проведенного Институтом автоматизации Китайской академии наук (модифицированная версия).
Время: утро 24 сентября 2017 г.
Модератор: Ван ЮньхунВведение профессора (спасибо за добрые слова, здесь опущено).
Вступительное слово Чжу:
Спасибо г-ну Тан Тьеню за то, что он много раз заботился о нем, и г-ну Ван Юньхуну за его любезное приглашение. Сегодня воскресенье, мне очень жаль задерживать время отдыха всех. Я знаю, что обычно все очень заняты, и вам очень трудно настоять на том, чтобы прослушать последнюю лекцию. Итак, я приношу вам галантерейные товары в качестве "духовной компенсации".
Сегодняшняя лекция представляет собой пропозициональную композицию Учитель Ван хочет, чтобы я рассказал о взаимодействии человека с компьютером. Что такое взаимодействие человека с компьютером и какие проблемы оно решает? Мне потребовалась неделя, чтобы организовать относительно длинную лекцию, чтобы представить развитие искусственного интеллекта и архитектуру взаимодействия человека с компьютером. Эта проблема очень большая, и исследовательская работа только началась, и нам нужно вместе рассмотреть многие проблемы, прежде чем мы сможем увидеть общую канву. Я дам вам идею, чтобы вдохновить вас на размышления, я не хочу давать прямой ответ. Это лишит вас пространства и вашего права думать.
В начале 2017 года я опубликовал статью «Академическая жизнь» в «Визуальном квесте», где упомянул, что идеальное царство обучения — это «Яркий ветерок и яркая луна», то есть глубокой ночью вы отправляетесь в граница науки, чтобы исследовать истину. Сегодняшняя лекция, я надеюсь, приведет всех в такое открытое место, чтобы испытать это.
Вопросы и ответы после отчета:
Вопрос один:Мистер Чжу, как машина порождает самосознание посредством обучения? У двери робота, которого вы только что продемонстрировали, есть кто-то, кто хочет войти. Откуда Та знает, что он отступает и уступает дорогу?
Чжу: Вопрос самосознания очень важен. Я дам краткую предысторию, прежде чем ответить на ваш вопрос.
Самосознание (сознание) настолько противоречиво в области психологии, что Когнитивное общество в свое время отговорило всех от обсуждения этого вопроса.Люди в этом направлении уже много лет не получают финансирования исследований. Несколько человек говорят об искусственном интеллекте, но он еще не реализован. Самосознание включает в себя:
(1)перцептивный опыт. Когда мы тратим деньги на походы в кино, катание на американских горках и путешествия, на самом деле мы покупаем впечатления. Этот опыт представляет собой относительно низкоуровневое самосознание, которое формирует выражение (это может быть карта интерпретации, о которой я упоминал выше). Вы также можете вспоминать постфактум.
(2)спортивный опыт. Хоть у нас и есть зеркала, кроме танцоров, не все видят их действия. Однако мы осознаем свою позу и движение. Мы постоянно осознаем нашу позу и трехмерные движения. Например, в психологическом эксперименте движение походки вас и группы людей (как знакомых, так и незнакомых) фиксируется несколькими суставными точками, записывается, а затем эти точки вам показываются, вы только наблюдаете Движение до точки , никакой другой информации не видно. Вы распознаете себя с большей скоростью, чем другие, и менее чувствительны к перспективе. Итак, мы работаем вместе, чтобы построить трехмерную модель самих себя посредством восприятия и движения. Они взаимосвязаны, часто благодаря зеркальным нейронам (зеркальным нейронам). нейроны). Это ключевой механизм преобразования для внутреннего выражения.
В этом отношении робот относительно прост в реализации: у него есть собственная 3D-модель, шарниры с датчиками и визуальная одометрия, которая в любой момент может обновить его 3D-позицию и форму на сцене. Это совсем не сложно.
(3)самосознание. В Китае есть поговорка, что «люди драгоценны и обладают самопознанием». Другими словами, обычному человеку трудно иметь самопознание. Понимание собственных способностей не должно быть слишком высоким или слишком низким. И это понимание должно обновляться в любое время. Например, я не могу водить машину после пьянки, а моя способность к распознаванию объектов не так сильна, когда свет темный, то есть у вас есть суждение об изменении вашей способности. Наши способности могут меняться каждый день, на самом деле это довольно сложно.
Например, когда робот прибывает на место ликвидации последствий стихийного бедствия в Фукусиме, Япония, ядерное излучение в любой момент может повредить различные возможности робота. Внезапно, какая линия заблокирована, движение сустава ограничено, и часть памяти разрушена. Он должен знать сам, а затем скорректировать планирование своей миссии. В настоящее время искусственному интеллекту сделать это очень сложно.
Человек, который только что упомянул, входит, и робот знает, что нужно отступить, это согласованный план действий. Когда вы планируете действие, вы должны сначала знать, что делает противник. Например, рукопожатие с людьми на самом деле является очень сложным процессом взаимодействия. Чтобы добиться этого, вы должны смоделировать в своей голове.
Вопрос второй: Спасибо, профессор Чжу, я чувствую, что то, что я услышал сегодня, это то, чего я никогда раньше не слышал. У меня такой вопрос, что роботу трудно понять себя, как вы сказали, он должен понимать мысли другого человека, как он может получить такую информацию? Также через обучение или?
Чжу: Наблюдение и практика. Когда вы наблюдаете, как другие люди что-то делают, вы можете наблюдать, вы можете узнать о функции ценности, что все люди разные, и вы можете понять окружающих вас коллег, например, вы делите офис или наблюдаете за людьми в вашей семье, вы живете с ними. Чем дольше время, тем больше вы знаете, как он думает о проблемах и как поступать, и тогда вы с ним становитесь все более молчаливыми в процессе взаимодействия. Помимо наблюдения, есть еще и практика, то есть проверять и проверять друг друга. Между мужем и женой они ссорились, когда впервые поженились.После этого ссоры стали меньше и гармоничнее, и сплав ценностей в целом сошелся, или они смогли терпеть друг друга. Если совсем не можете сдержаться, то вы расходитесь и идете в бюро по гражданским делам, чтобы пройти формальности. Оба случая - это то, что я сказал"Изучение проблемы простояНе общайтесь больше и не учитесь друг у друга, а то поймете и молчаливо поймете, или будете глухи и станете чужими.
Вопрос третий: Тоже наблюдает через себя, строит ли в нем график? График разбора?
Чжу: Мне кажется так. То есть мне приходится максимально реконструировать многие структуры в вашей голове.Уровень экспрессии и есть карта интерпретации.Что же касается того, как человеческий мозг хранит эту карту интерпретации на уровне нейронов, мы не знаем. В человеческом мозгу должны быть похожие выражения.После того, как у меня в голове появится ваше выражение, я могу притвориться или изобразить вашу реакцию на различные ситуации.
Когда писатель пишет, он должен одновременно держать в голове десятки и сотни моделей и выражений знания, что эти люди знают и когда они это знают. Люди, читающие гуманитарные науки, обычно более наблюдательны. Художники-исполнители должны быть особенно способными в этой области.
Вопрос четвертый: Типа мы новички в машинном обучении, есть ли у вас рекомендации, потому что сейчас все отслеживают и обучают глубокие сети, есть ли рекомендация, то есть вероятностная модель что ли, математическая теория или математический инструмент.
Чжу: Моя идея такова, во-первых, пусть все исправляют свое мышление, то есть хочется учиться, исследовать правду и неизведанное. То есть вы исследуете истину глубокой ночью, и когда вы успокоитесь, вы, естественно, увидите некоторые вещи, которые другие упустили из виду. Не просите меня порекомендовать инструмент, код, чит, просто используйте его. То, о чем я говорю сегодня, не вытекает из определенной теории или инструмента, а является результатом интеграции.
Я неоднократно предупреждал студентов, что заниматься научными исследованиями — это не то же самое, что в прошлом ходить на эстакаду в Пекине, чтобы посмотреть трюки. Я уже говорил о "метафоре уличного фонаря". Научные исследования подобны поиску ключей в темную ночь. Людям нравится собираться под уличными фонарями, чтобы искать их, но возможно, что ключи не под этим. светлый.
Вопрос пятый: Г-н Чжу, я очень рад услышать этот доклад Мой последний вопрос очень прост. В течение периода, который вы упомянули, я хотел бы спросить, когда придет династия Цинь? Когда пришла династия Цинь, какую часть математики, по вашему мнению, можно было бы использовать в качестве оружия Цинь Чао или самого мощного оружия?
Чжу: Хороший вопрос. Когда будет достигнуто единство? У Китая есть две точки зрения на этот вопрос, и обе они являются обоснованными.
Есть поговорка под названием «Ваншань гонит дохлую лошадь». Вы видите издалека, что гора перед вами приближается, и вы гоните свою лошадь вперед, но лошадь не может до нее добраться, и может быть несколько рек посредине, преграждающих путь. Это наша недооценка вопроса.
Вторая поговорка: «Далеко на горизонте, близко». Сможете ли вы достичь этого или нет, зависит от мудрости и действий людей на вашей стороне. Когда объединяться и кто будет объединяться, зависит от наших собственных усилий. В Период Весны и Осени и Период Сражающихся царств было больше всего мыслителей, вышли все ученые и сотни школ, это была эпоха ожесточенного столкновения идей. Вещи, о которых я говорил сегодня, на самом деле яростно сталкиваются в моей голове, и у меня все еще есть некоторые вопросы, в которых я не могу разобраться.
Мы сейчас говорим об этом и о структуре, как вы думаете, сколько людей в мире этим занимаются? Мое наблюдение: очень мало, может быть, по пальцам одной руки.
Ваш второй вопрос, если вы хотите унифицировать, какой математический инструмент является самым мощным? Нам нужно установить единое выражение знаний: вероятность и логика должны быть интегрированы, а также должно быть интегрировано глубокое обучение. Давайте посмотрим, как едина физика, разные модели в них (четыре категории сил и взаимодействий) должны быть гармоничны, а затем объясним различные явления. Проще говоря, нам нужно выяснить две вещи:
1. Где использовать какую модель? По сравнению с классической механикой, электромагнетизмом, оптикой, статистической физикой, физикой элементарных частиц и т. д. у всех есть свои явления, законы и сферы применения. Здесь мы тоже похожи.Различные модели имеют свою сферу и основу.Например, мы часто слышим, что модель Гиббса часто находится в области высокой энтропии, разреженная модель - в области низкой энтропии, и используется синтаксис графа. в области средней энтропии. Никто в мире не занимается этим произведением, кроме моей лаборатории.
2. Как конвертировать между этими моделями? Я приводил пример ранее. Я написал статью об унификации и переходе шкалы информации между неявными (марковское поле) и явными (разреженными) моделями и представил ее на конференцию CVPR. В результате три оценки были "(5 ) сильное неприятие; (5) сильное неприятие; (4) неприятие». Все вообще не думали об этой проблеме, и все смотрели на набор данных и насколько улучшилась производительность. Список стал важной парадигмой научных исследований CVPR. В глазах некоторых людей очистка списка стала единственным способом. Раньше я критиковал этот идеал, но, подумав об этом, я действительно должен поощрять его больше. Раньше я критиковал академических деятелей, которые сводили общественность в тупик, а теперь я им особенно благодарен. Это дает моим ученикам больше времени для реализации наших идей. Вы все кинулись топтать и копать, а я не мог убежать. Когда я занимаюсь исследованиями, я предпочитаю молчать и не гонюсь за цитируемостью статей.
Ван ЮньхунРезюме профессора (разбор): В сегодняшнем докладе профессора Чжу можно почувствовать два момента.
1. Вертикально и горизонтально слегка поднимайте тяжести. Продольный и горизонтальный по многим глубоким темам в шести основных областях искусственного интеллекта и на многих уровнях пересекающихся линий, он очень ясен, беззаботен и свободен в отправке и получении. Очень повезло услышать такой отчет.
Во-вторых, научите людей ловить рыбу вместо рыбы. Он говорит о том, как думать о проблемах, как видеть мир, как изучать что-то действительно важное. После чрезмерного акцента на глубоком обучении в последние годы многие докторанты и некоторые исследователи слишком сильно полагаются на инструменты, и их способность мыслить была нарушена. На самом деле мир исследований настолько велик, что вы должны смотреть вверх и смотреть на звезды.
Благодарность
Мы хотели бы поблагодарить доктора Гуо Байнина, Хуа Ганга, Дай Цзифэна и др. из Microsoft Research Institute за организацию семинара в Пекине в сентябре 2016 года. В июне 2017 года такие профессора, как Тан Сяоу, Ван Сяоган и Линь Лян, пригласили меня прочитать лекцию в Китайском университете Гонконга. Доктор Шэнь Сянъян на форуме Бихуэй, организованном Сиэтлом в июле 2017 года. В сентябре 2017 года под руководством профессора Тан Тьеню профессор Ван Юньхун провел семинар по взаимодействию человека и компьютера с искусственным интеллектом в Институте автоматизации Китайской академии наук и поручил стенографистке и докторанту из Бэйхана Лю Сонгтао разобраться с китайским языком. первый вариант отчета. Без их терпения, настойчивости, ободрения и помощи этот отчет на китайском языке был бы невозможен. Некоторые фотографии в отчете были организованы Zhu Yixin, Wei Ping, Shu Tianmin и другими из лаборатории VCLA@UCLA.
Я хотел бы поблагодарить профессора Руана Яочжуна и Ян Чжихуна из Университета науки и технологий Китая за помощь в поиске отсканированной в электронном виде версии бесценного «Введения в механику». Введение приведено в тексте. Мой разум был просветлен этой книгой.
Спасибо Zhou Shaohua, Hua Gang, Wu Ying, Luo Jiebo и другим коллегам из редакции официального аккаунта «Visual Quest».
Спасибо многим учреждениям в Соединенных Штатах за их долгосрочную поддержку исследований, упомянутых в этой статье.
Отказ от ответственности: эта статья ограничивается утверждением чисто академических точек зрения и не направлена против какой-либо организации или отдельного лица. Эта статья представляет только личные взгляды и не представляет позицию организации.
полный текст
Уведомление об авторских правах:Авторские права на эту оригинальную статью принадлежат публичному аккаунту «Визуальный поиск». Ни одно подразделение или физическое лицо не может воспроизводить его без разрешения этой официальной учетной записи. Свяжитесь с авторизованной перепечаткой, пожалуйста, отправьте сообщение или электронное письмо после подписки на публичный аккаунтискатель видения editors@Gmail.com.