Персептрон с середины 1950-х до начала 1980-х годов, экспертная система с начала 1980-х до начала 21 века и технология глубокого обучения последнего десятилетия являются репрезентативными продуктами трех бумов.
Кривая технологической зрелости Gartner2018, кривая технологических тенденций, ежегодно публикуемая Gartner, с акцентом на новые технологии, которые могут обеспечить огромную конкурентоспособность в ближайшие 5–10 лет.
Технологии искусственного интеллекта далеко не всесильны и всемогущи, как пропаганда СМИ. Статус-кво технологического развития также можно увидеть на рисунке 1. AlphaGo может обыграть лучших шахматистов среди людей, но невозможно принести вам стакан воды. Ганс Моравек, известный исследователь робототехники, сказал ранее: то, что легко для роботов, будет очень сложно для людей, и наоборот.
Люди легко умеют слушать, говорить, читать и писать, но очень сложны для сложных вычислений, тогда как роботам сложно брать предметы руками и подниматься в гору, но они легко вычисляют орбиту космической ракеты. Люди могут легко выполнять различные действия благодаря накопленному обучению, но роботам сложно выполнять эти простые действия. Эксперты называют эту теорию парадоксом Моравца. Эксперт по машинному обучению, известный информатик и статистик Майкл И. Джордан недавно опубликовал статью в «Harvard Data Science Review», а также считает, что многие области, которые сейчас называют ИИ, на самом деле являются машинным обучением, а настоящей революции ИИ еще нет.
В отрасли согласны с тем, что тремя элементами ИИ являются алгоритмы, вычислительная мощность и данные.
От вычислений к восприятию и познанию — это путь развития технологий искусственного интеллекта, с которым согласны большинство людей. Так каково текущее состояние когнитивного интеллекта?
Во-первых, давайте посмотрим, что такое когнитивный интеллект. Профессор Сяо Янхуа из Университета Фудань однажды упомянул, что так называемый когнитивный интеллект машин означает, что машины могут думать, как люди, и этот тип мыслительных способностей воплощается в способности машин понимать данные, понимать язык, а затем понимать реальный мир. , Способность интерпретировать данные, объяснять процессы и затем объяснять явления находит отражение в ряде уникальных человеческих когнитивных способностей, таких как рассуждение, планирование и т. д.
Для зрения, слуха, речи и действия перцептивный интеллект достиг очень хороших результатов. Для рассуждений, эмоций, ассоциаций и других способностей ему также необходимо воплощение более сильных когнитивных способностей.
Категория базовых способностей виртуальной жизни
этап виртуальной жизни
Virtual Life 1.0 можно рассматривать как обновленную версию чат-ботов. Важнейшей особенностью этого этапа является интеграция одноточечных технологий и возможность взаимодействия с человеком в целом. С функциональной точки зрения это по-прежнему в основном пассивное взаимодействие, но его можно сочетать с пользовательским восприятием для создания пользовательских портретов и активных рекомендаций.
Сейчас мы находимся в фазе 1.0 виртуальной жизни. На данном этапе многоэтапный диалог, открытый диалог, понимание контекста, персонализированные ответы на вопросы, последовательность и безопасные ответы по-прежнему остаются техническими проблемами, требующими решения. В то же время виртуальной жизни также необходимо найти место приземления и совершить технологический прорыв в конкретных областях.
Виртуальная жизнь 2.0 - это направление, над которым в настоящее время ведется работа. На данном этапе интеграция мультимодальных технологий полностью созрела, а формы виртуальной жизни более разнообразны. Она имеет совместные рассуждения и ассоциации, основанные на массивных данных, что является полезно для себя и пользователей.Он имеет всестороннее познание и может быстро настроить личность. Для достижения этой стадии может потребоваться 3-5 лет.
Виртуальная жизнь 3.0 изначально обладает сильным искусственным интеллектом, обладает всесторонними способностями к восприятию, выходящим за рамки человеческого, обладает всесторонним мышлением, ассоциациями и познанием, обладает самосознанием и может достигать естественного взаимодействия на человеческом уровне. По мере развития технологий мы с нетерпением ожидаем реализации виртуальной жизни 3.0 в ближайшие десять-три десятилетия.
Язык представляет собой систему символов, которая в основном передает информацию на основе вокализации и является одним из важных средств коммуникации и способов существования человека. При воздействии на отношения между людьми он является посредником для выражения взаимных реакций; при воздействии на отношения между людьми и объективным миром является орудием понимания вещей; при воздействии на культуру является носителем культурной информации. источник: Википедия). Язык связан с логикой, а логика человеческого мышления является наиболее совершенной.
Восходящая обработка естественного языка требует, чтобы компьютер понимал значение текста посредством анализа слов, слов, фраз, предложений, абзацев и глав.
Например, в процессе общения с роботами понимание музыкальных тем требует использования таких технологий, как распознавание именованных сущностей и связывание сущностей. Чтобы привести простой пример: «Мне очень нравятся нунчаки Джея», необходимо судить, что Джей — это личное имя, ссылка на певца, такого как «Джей Чоу», в базе знаний, а «нунчаку» — это название. не является устройством. В то же время может быть вынесено и эмоциональное суждение, которое представляет собой положительную эмоцию «нравится».
В традиционных технологиях обработки естественного языка по-прежнему преобладают статистика и машинное обучение, и они требуют большого количества правил. В последнее десятилетие развитие технологий глубокого обучения также привело к прорыву в технологии обработки естественного языка. Все это тоже нужно начинать с представления языка.
Известно, что компьютеры хорошо обрабатывают символы, поэтому естественный язык необходимо перевести в удобную для машин форму, которая может быть быстро обработана компьютерами. Типичным методом представления является однократное представление словаря, которое эквивалентно каждому слову, имеющему определенную позицию в словаре. Например, есть словарь из 10000 слов, а «король» — это 500-е слово в словаре, тогда «король» можно представить как одномерный вектор, только 500-я позиция равна 1, а остальные 9999 позиций. 0. Однако у этого метода представления есть много проблем.Для слов или предложений с похожей семантикой, но разным составом, таких как «король» и «королева», векторный скалярный продукт однократного представления не может точно оценить сходство между двумя .
В 2013 году Томас Миколов и другие разработали в Google нейросетевой метод обучения словесному эмбеддингу (встраиванию слов) Word2Vec, который не только значительно сократил длину вектора представления слова, но и лучше отразил семантическую информацию. Проблема «король» — «мужчина» = «королева» — «женщина» хорошо решается этим методом встраивания. Заинтересованных читателей отсылаем к обширной литературе по встраиванию слов в Интернете.
После того, как компьютеры научились быстро обрабатывать естественный язык, традиционные методы машинного обучения были подорваны глубоким обучением. Скорость итерации связанных алгоритмов в последние годы очень высока. Если взять в качестве примера метод предварительной подготовки языковой модели (Language Model), репрезентативными методами являются Transformer, ELMo, Open AI GPT, BERT, GPT2 и последняя версия XLNet. Среди них Transformer был предложен в июне 2017 года. ELMo был опубликован в феврале 2018 года, обновив все результаты SOTA (State Of The Art) на тот момент.
Менее чем за 4 месяца Open AI выпустила метод GPT на основе Transformer в июне и обновила 9 результатов SOTA. Еще через 4 месяца появившийся из ниоткуда BERT обновил еще 11 результатов SOTA. В феврале 2019 года Open AI выпустила GPT2, который содержит 1,5 миллиарда параметров и обновил результаты SOTA для 11 задач. В июне 2019 года CMU и Google Brain предложили новую XLNet, которая превзошла по производительности BERT в 20 задачах и достигла текущих лучших результатов в 18 задачах.
Помимо прогресса алгоритмов и вычислительной мощности, еще одна важная причина заключается в том, что предыдущие исследования в области обработки естественного языка в большей степени касались обучения с учителем, для которого требуется большой объем размеченных данных, которые являются дорогостоящими и трудно контролируемыми по качеству. создавать предварительно обученные модели непосредственно на неразмеченном тексте. В истории человечества неконтролируемые данные огромны, а это означает, что в этих моделях еще есть много возможностей для улучшения. 11 июля 2019 года Google AI опубликовал документ, в котором использовалось 25 миллиардов обучающих образцов параллельных пар предложений. Мы тоже подождем и увидим эффект от его применения.
Попытка использовать технологии для имитации реальных человеческих разговоров — ложное предположение в открытом поле. Потому что в процессе человеческого диалога информация, выраженная в предложении, представляет собой не только сам текст, но и включает в себя мировоззрение, эмоцию, окружение, контекст, голос, выражение, отношения между собеседниками.
Например, «сегодня хорошая погода», рассказывая коллегам в переполненном лифте утром, рассказывая друзьям во время осеннего тура, говоря между друзьями мужского и женского пола, идущими по улице, говоря моим коллегам под проливным дождем, это, вероятно, представляет совершенно другое значение. Факторы, которые необходимо учитывать в человеческом диалоге, включают: статическое мировоззрение говорящего и слушающего, динамические эмоции, отношения между ними, контекст и окружающую среду и т. д.
Более того, ни один из вышеперечисленных факторов не является независимым, только в комплексе они могут по-настоящему отражать смысл предложения или слова. Это чудо человеческого языка. В то же время в процессе взаимодействия люди не ждут, пока другая сторона закончит предложение, чтобы обработать информацию, а продолжают соображать с каждым словом, которое они произносят, и, вероятно, знают все о том, что происходит. другая сторона, прежде чем они закончат говорить Информация. Кроме того, у людей есть сильная функция исправления ошибок: при проведении нескольких раундов взаимодействия они могут пересматривать свое собственное понимание в соответствии с отзывами другой стороны, чтобы добиться синхронизации информации между двумя сторонами.
В предыдущем разделе мы также упоминали, что методы обработки естественного языка сложны для решения задач логического вывода. Рассуждение является важной частью когнитивного интеллекта. Например, для вопроса «Какой национальности дочь жены Яо Мина?» возможным решением является проведение запросов на вывод через крупномасштабный энциклопедический граф знаний.
Граф знаний считается важным краеугольным камнем от перцептивного интеллекта к когнитивному интеллекту. Очень простая причина заключается в том, что роботы без знаний не могут достичь когнитивного интеллекта. Эдвард Фейгенбаум, лауреат премии Тьюринга и основатель инженерии знаний, однажды упомянул: «Знание — это сила в системе ИИ». Академик Чжан Цимбал также упомянул, что «ИИ без знаний — это не настоящий ИИ».
Глядя на алгоритм GPT-2, упомянутый в предыдущем разделе, даже если его способность продолжать писать статьи заслуживает восхищения, это еще раз доказывает, что достаточно большая нейронная сеть с достаточным количеством обучающих данных может генерировать сильные возможности памяти. Но способности к логике и рассуждению еще не могут спонтанно возникнуть из способностей памяти. И академические, и деловые круги возлагают надежды на графы знаний для решения проблем взаимосвязи знаний и рассуждений. Так что же такое граф знаний? Проще говоря, это систематизация знаний в виде графиков. Может быть, это недостаточно ясно, чтобы сказать это Давайте возьмем пример, чтобы сказать, что такое знание и что такое граф.
Так называемое знание — это абстракция информации.В качестве простого примера 226,1 см и 229 см — все это объективно существующие изолированные данные. В этот момент данные не имеют никакого значения и лишь выражают существование факта. А «размах крыльев Яо Мина 226,1 см» и «рост Яо Мина 229 см» являются фактическими утверждениями и относятся к категории информации. Для знания это абстракция и индукция на более высоком уровне.Объединяя рост Яо Мин, размах крыльев и другие атрибуты Яо Мин, вы можете получить знания о Яо Мин, а также узнать больше о Яо Мин. выше, чем у обычных людей.
Определение знания, данное Википедией, звучит так: Знания — это результат знания людьми объективного мира (включая людей) на практике, которое включает факты, описания информации или навыки, приобретенные в процессе обучения и практики. Знание — это систематическое понимание, получаемое людьми различными способами, которое было улучшено, обобщено и сжато.
Английский язык карты - это граф, а дословный перевод - это значение «график». В теории графов (раздел математики) графы представляют структуру взаимосвязей между одними объектами и другими. Граф обычно состоит из некоторых вершин (вершин или узлов) и ребер (ребер), соединяющих эти вершины. Сильвестр впервые предложил термин «граф» в 1878 г. [7]. Если мы построим «знание» Яо Мина с помощью «графа»,
Граф знаний является важным краеугольным камнем для реализации общего искусственного интеллекта (Artificial General Intelligence). Построение крупномасштабного высококачественного графа знаний является важной частью процесса от восприятия к познанию.Когда искусственный интеллект может понимать человеческие знания через более структурированное представление и связывать их между собой, машины могут по-настоящему реализовать логические выводы и ассоциации. y и другие когнитивные функции. Построение графа знаний — систематический проект
Стратегия "сверху вниз" управляется экспертами. В соответствии со сценариями и областями применения мы используем эмпирические знания, чтобы вручную определить схему данных для графа знаний. В процессе определения онтологии мы сначала начинаем с концепции верхнего уровня. , а затем постепенно уточняйте ее, чтобы сформировать структуру Хорошая иерархия таксономии: после определения схемы данных объекты сопоставляются с понятиями один за другим.
Стратегия «снизу вверх» основана на данных.Начиная с источника данных, для различных типов данных сущности и знания, содержащиеся в нем, обобщаются и организуются для формирования базовых концепций, а затем постепенно абстрагируются вверх для формирования верхнего уровня. понятия, которые соответствуют в конкретных сценариях применения.
Графы знаний могут помочь приложениям в различных интеллектуальных сценариях. Google впервые предложил концепцию «График знаний» в 2012 году и применил граф знаний для поиска, так что «поиск может привести непосредственно к ответу». Граф знаний также может помочь в сценариях приложений, таких как интеллектуальные ответы на вопросы и обоснование решений.
Наконец, стоимость построения графа знаний по-прежнему высока. В своей статье «Сколько стоит тройка? Оценка стоимости создания графа знаний» Хайко Паульхейм приводит несколько типичных затрат на построение графа знаний. Среди них CYC, самый ранний проект графа знаний, начатый в 1980-х годах, стоит в среднем 5,71 доллара за построение утверждения и утверждения.С развитием технологий обработки естественного языка и машинного обучения стоимость построения каждого предложения DBpedia была снижена до 1,85 доллара. центов Даже в этом случае, когда реализована настоящая инженерия, стоимость проекта графа знаний все еще высока из-за очистки и интеграции данных из нескольких источников.
Сочетание обработки естественного языка и графа знаний может обеспечить определенную степень рассуждений, а сочетание графа знаний и глубокого обучения может обеспечить определенную степень интерпретируемости.Сочетание обработки естественного языка и глубокого обучения привело к рождению мощных языковые модели, такие как BERT