В чем разница между наукой о данных, машинным обучением и искусственным интеллектом?

машинное обучение искусственный интеллект алгоритм робот
В чем разница между наукой о данных, машинным обучением и искусственным интеллектом?
Эта статья была изначально создана "AI Frontline", оригинальная ссылка:В чем разница между наукой о данных, машинным обучением и искусственным интеллектом?
Дэвид Робинсон
Подборка | Ян Цзыи
Редактор | Эмили

Руководство по передовой ИИ:”Когда я представляюсь людям как специалист по данным, я часто слышу такие вопросы, как «В чем разница между этим и машинным обучением?» или «Означает ли это, что вы занимаетесь искусственным интеллектом?». Я слишком много раз отвечал на этот вопрос. Количество раз, когда я отвечал, достигло принципа, что я могу делать только три вещи. "


Твит Дэвида Робинсона:

Когда вы написали один и тот же код три раза, напишите функцию. Напишите сообщение в блоге, когда вы дали один и тот же совет 3 раза лицом к лицу.

Между этими областями действительно существует много общего. И в каждой из этих областей так много шумихи, что выбор того, какое слово использовать, кажется вопросом, связанным с маркетингом.Однако они не являются взаимозаменяемыми по желанию.Даже если это трудно выразить словами, большинство экспертов в этих областях могут интуитивно понять, какие профессии относятся к науке о данных, а какие к машинному обучению или искусственному интеллекту.

Итак, в этом посте я придумал очень простое определение разницы между этими тремя областями:

  • Наука о данных дает понимание
  • Машинное обучение дает прогнозы
  • ИИ генерирует действие

Чтобы было ясно, это не является достаточным условием: не все, что соответствует определенному определению, попадает в это поле. (Гадалки тоже делают прогнозы, но мы бы никогда не подумали, что они занимаются машинным обучением!) Эти определения также не очень хороши для определения роли человека и способа работы («Я специалист по данным?»), что-то вроде «Вопросов». связаны с направлением и опытом внимания человека. (Это справедливо для любой должностной инструкции: частью моей работы является писательство, но я не профессиональный писатель).

Однако я думаю, что эти определения полезны для разграничения этих трех типов работы. И эти определения не дадут вам показаться глупым, когда вы будете говорить об этом. Стоит отметить, что я использую описательный, а не предписывающий подход: меня интересует не то, что эти термины «должны означать», а то, как люди в этой области обычно их используют.


Наука о данных дает понимание

Что отличает науку о данных от двух других областей, так это то, что ее цель на самом деле является человеческой целью: получение информации и понимания. У Джеффа Лика есть очень хорошее определение того, каких типов информации можно достичь с помощью науки о данных, включая описательную («средний клиент с вероятностью 70% продлевает»), исследовательскую («у разных продавцов разная скорость обновления») и причинно-следственную («каузальность»). рандомизированные эксперименты показывают, что клиенты, назначенные Алисе, с большей вероятностью возобновят подписку, чем клиенты, назначенные Бобу»).

Опять же, не все, что дает понимание, считается наукой о данных (классическое определение науки о данных состоит в том, что это сочетание статистики, разработки программного обеспечения и знаний в предметной области). Но мы можем использовать это определение, чтобы отличить его от машинного обучения и ИИ. Основное отличие состоит в том, что в рабочем процессе науки о данных всегда есть человек: этот человек понимает идеи, смотрит на графики или извлекает пользу из выводов. Таким образом, мы не можем сказать, что «наш шахматный алгоритм использует науку о данных, чтобы выбрать, что делать дальше» или «Карты Google используют науку о данных, чтобы рекомендовать маршруты движения».

Таким образом, это определение науки о данных подчеркивает:

  • статистические выводы
  • визуализация данных
  • экспериментальная конструкция
  • базовые знания
  • общаться

Специалисты по данным могут использовать простые инструменты: они могут сообщать проценты и строить линейные графики на основе запросов SQL. У них также есть доступ к очень сложным методам: они могут использовать распределенные хранилища данных для анализа триллионов записей, разрабатывать передовые статистические методы и создавать интерактивные визуализации. Что бы они ни использовали, их цель — лучше понять свои данные.


Машинное обучение дает прогнозы

Я думаю о машинном обучении как о области прогнозирования: «данный экземпляр X с определенными характеристиками предсказывает Y». Эти предсказания могут относиться к будущему («предсказать, разовьется ли у этого пациента сепсис»), но они также могут быть качествами, которые нелегко понять компьютерам («предсказать, есть ли на этом изображении птица»). Почти все соревнования Kaggle — это задачи машинного обучения: они предоставляют некоторые обучающие данные и проверяют, смогут ли участники делать точные прогнозы на новых примерах.

Между наукой о данных и машинным обучением много общего. Например, логистическую регрессию можно использовать для получения информации об отношениях («Чем богаче пользователь, тем выше вероятность того, что он купит наш продукт, поэтому нам следует изменить нашу маркетинговую стратегию») и для прогнозирования («У этого пользователя 53 % вероятность купить наш продукт, поэтому мы должны порекомендовать ему этот продукт»).

Такие модели, как случайный лес, немного менее интерпретируемы. Следовательно, это скорее класс трудно интерпретируемых методов, таких как машинное обучение и глубокое обучение. Если ваша цель — извлечь информацию, а не делать прогнозы, эти методы могут помешать вашей работе. Таким образом, мы можем представить себе «спектр», охватывающий как науку о данных, так и машинное обучение, в котором простые для интерпретации модели смещены в сторону науки о данных, а модели «черного ящика» — в сторону машинного обучения.

Большинство практикующих могут довольно комфортно переключаться между двумя задачами. В своей работе я использую как машинное обучение, так и науку о данных: я могу использовать модель, обученную на данных о трафике Stack Overflow, чтобы определить, какие пользователи могут искать работу (это машинное обучение), но также создавать обобщенные описания и визуализации, чтобы проверить, почему модель работает корректно (это наука о данных). Эта работа — важный способ обнаружить недостатки в ваших моделях и бороться с алгоритмической предвзятостью. Вот почему специалисты по данным часто несут ответственность за разработку компонента машинного обучения продукта.


ИИ генерирует действие

Искусственный интеллект на сегодняшний день является самой старой и наиболее широко известной из трех областей, поэтому его определение является наиболее сложной задачей. Термин окружен большим количеством шумихи благодаря исследователям, журналистам и стартапам, которые ищут деньги или внимание.

Твит барона Шварца:

Когда вы собираете деньги, это ИИ, когда вы нанимаете сотрудников, это машинное обучение, когда вы пишете код, это линейная регрессия, когда вы отлаживаете ошибки, это printf().

Это создало во мне очень досадное сопротивление. Потому что это означает, что некоторые профессии, которые должны называться ИИ, таковыми не являются. Некоторые исследователи даже жалуются на влияние ИИ: «ИИ — это то, что мы не можем сделать прямо сейчас» [сноска 1]. Итак, какую работу мы можем назвать ИИ?

Общей нитью в определениях «искусственного интеллекта» являются автономные агенты, выполняющие или рекомендующие действия (например, Пул, Макворт и Гебель, 1998 г., Рассел и Норвиг, 2003 г.). Некоторые системы, которые, по моему мнению, следует описывать как ИИ, включают:

  • Игровые алгоритмы (Deep Blue, AlphaGo)
  • Робототехника и теория управления (планирование движения, шагающие двуногие роботы)
  • Алгоритм оптимизации (Google Maps для выбора маршрута)
  • Обработка естественного языка (роботы [сноска 2])
  • обучение с подкреплением

В то же время мы видим, что у ИИ много пересекающихся частей с другими областями. Глубокое обучение особенно интересно тем, что позволяет перейти от машинного обучения к ИИ. Типичным вариантом использования является обучение на данных, а затем создание прогнозов, но он добился большого успеха в игровых алгоритмах, таких как AlphaGo. (Это резко контрастирует с предыдущими игровыми системами, такими как Deep Blue, которые были больше сосредоточены на исследовании и оптимизации последующего пространства решений).

Но есть и различия между ними. Если я проанализирую некоторые данные о продажах и обнаружу, что клиенты в одной отрасли продлевают подписку чаще, чем клиенты в других отраслях (извлекая информацию), моим результатом будут цифры и графики, а не конкретное действие. (Руководители могут использовать эти выводы для изменения нашей стратегии продаж, но это действие не является автономным). Это означает, что я буду описывать свою работу как науку о данных. Было бы очень неловко, если бы я сказал: я «использую ИИ для улучшения наших продаж».

Твит Дэйва Гершгорна:

Пожалуйста, не смотрите на кого-то, кто только что обучил модель и говорит, что у него есть сила ИИ.

Разница между искусственным интеллектом и машинным обучением немного тонка, исторически машинное обучение часто считалось подполем ИИ (особенно компьютерное зрение рассматривается как классическая проблема ИИ). Но я думаю, что область машинного обучения в значительной степени отделилась от ИИ, отчасти из-за сопротивления, упомянутого выше: большинство людей, которые работают над задачами прогнозирования, не любят называть себя исследователями ИИ. (Знания, которые способствовали многим важным прорывам в области машинного обучения, пришли из статистики. В других областях области ИИ статистика появлялась реже). Это означает, что если вы можете описать проблему как «предсказание X по Y», я рекомендую избегать термина «ИИ».

Твиттер Эми Хой:

Согласно текущему определению, y=mx+b — это робот с искусственным интеллектом, который может сказать вам, куда должна идти линия.


Тематическое исследование: как все три работают вместе?

Допустим, мы строим беспилотный автомобиль и работаем над конкретной проблемой парковки рядом со знаком. Нам необходимо использовать следующие навыки в каждой из этих трех областей.

  • Машинное обучение: автомобили должны распознавать знаки остановки с помощью камер. Мы создали набор данных из миллионов фотографий уличных объектов и обучили алгоритм предсказывать, на каких из них есть знак «стоп».
  • AI: Как только наша машина распознает знаки остановки, она должна решить, когда следует затормозить. Тормозить слишком рано или слишком поздно опасно, нам нужны алгоритмы, которые могут справляться с различными дорожными условиями (например, на скользкой дороге он распознает, что сейчас не может замедлиться достаточно быстро), это проблема теории управления.
  • Наука о данных: во время уличных испытаний мы обнаружили, что автомобиль работает недостаточно хорошо, с некоторыми ложноотрицательными результатами, которые должны были правильно припарковаться рядом со знаком «Стоп». Проанализировав данные тестов на улице, мы поняли, что частота ложноотрицательных результатов зависит от того, в какое время суток проводится тест: автомобили с автоматическим управлением чаще пропускают знаки остановки до восхода или после захода солнца. Мы поняли, что большая часть наших обучающих данных состояла только из объектов в хорошо освещенных местах. Поэтому мы создали набор данных ночных изображений и снова начали с этапа машинного обучения.

сноска:

  • Нельзя отрицать, что сейчас многие люди связывают искусственный интеллект со способностью выполнять задачи в самых разных областях.общий искусственный интеллектбыть сбитым с толку, даже с теми, кто находится за пределами человеческого разумасупер искусственный интеллектсмущенный. Это порождает нереалистичные ожидания для любой системы, которая сейчас называется «ИИ».
  • Под «роботом» я подразумеваю систему, которая интерпретирует естественный язык, а затем отвечает определенным образом. Он отличается от интеллектуального анализа текста, целью которого является получение информации от него (наука о данных), и классификации текста, целью которой является классификация документов (машинное обучение).

Посмотреть исходный английский текст:

varianceexplained.org/r/ds-ml-ai/

Для большего содержания сухих товаров вы можете обратить внимание на AI Frontline, ID:ai-front, фоновый ответ "AI", "TF", "Большие данные«Вы можете получить серию мини-книг и карт навыков в формате PDF «AI Frontline».