Майкл Джордан: ненавижу называть машинное обучение искусственным интеллектом

Подборка | Базовый лагерь технологий ИИ (Публичный идентификатор: rgznai100)
Вовлечь | Reason_W

В прошлом месяце в Стэнфорде открылась SysML, систематическая конференция по машинному обучению, инициированная Майклом И. Джорданом, Джеффом Дином, Ли Фейфеем, Лекуном и многими другими громкими именами в области искусственного интеллекта.

На встрече Майкл И. Джордан, магистр машинного обучения, выступил с программной речью на тему «Перспективы и проблемы систем и машинного обучения». Поскольку оно похоже на имя звезды НБА Майкла Джордана, у него интересное название: «Майкл Джордан машинного обучения».которыйМайкл Джордан в области машинного обучения.

Почему его называют мастером машинного обучения? Знайте, что его учениками являются известные ученые в этой области, такие как Эндрю Нг, Зубин Гахрамани, Томми Яаккола, Лоуренс Сол и Дэвид Блей. В настоящее время он является профессором кафедры электротехники, вычислительной техники и статистики Калифорнийского университета в Беркли.

Важный вклад Майкла И. Джордана включаетУказал на связь между машинным обучением и статистикой и подтолкнул сообщество машинного обучения к широкому признанию важности байесовских сетей. Он также известен своими работами по популяризации машинного обучения с формализацией вариационных методов приближенного вывода, алгоритма максимизации ожидания..

В этой речиС самого начала он атаковал то, что сейчас называется «ИИ».. Он считает, что концепция «ИИ», популярная в СМИ, преувеличена, и многие люди пытаются продать эту концепцию венчурным капиталистам, СМИ и общественности. Что касается настоящего ИИ»,мы не достиглиТакже есть немало исследователей, которые попали в трясину глубокого обучения, и их мышление стало более узким.

Он рассмотрел текущее состояние области машинного обучения и предстоящие задачи. Хотя текущее развитие теории машинного обучения достигло определенной высоты,Но он ненавидит, что люди внезапно называют это ИИ, потому что это все еще просто машинное обучение. Он считает, что реализация настоящего ИИ должна опираться на прорывы в логике, рассуждении, принятии решений и других операциях, но между ними все еще существует явный разрыв..

Некоторые классические области ИИ, такие как компьютерное зрение и НЛП, далеки от разумности и практичности и требуют дальнейших исследований и усилий. В то же время традиционные социальные платформы, такие как Facebook, далеки от того, чтобы по-настоящему объединять людей. Для многих системных платформ, таких как здравоохранение, финансы, музыка и общественное питание, по-прежнему существует огромное пространство для воображения.

Эта статья представляет собой запись выступления Майкла Джордана на конференции (с сокращениями), организованной заголовками искусственного интеллекта.

▌ Мы еще не достигли настоящего ИИ

Знаешь, я ушел из Массачусетского технологического института, чтобы поступить в Калифорнийский университет в Беркли. На самом деле это потому, что в Массачусетском технологическом институте нет специальностей, связанных со статистикой, и не было до сих пор, и я думаю, что статистика имеет решающее значение для информатики. Хотя развитие компьютерных наук сегодня очень интересно, оно по-прежнему не решает проблему рассуждений, существует разрыв между компьютерами и рассуждениями, поэтому я собираюсь изучать вероятность и статистику.

Многие говорят, что я изучаю ИИ со статистической точки зрения, это не очень хорошо, я просто изучаю машинное обучение. ИИ — очень широкое понятие, затрагивающее практически все уровни компьютерных наук. Каждая его часть должна включать поток данных и должна адаптивно развиваться на основе этих данных. Все дело в информатике, но по сей день она не получила большого признания в вычислительных отделах, которые все еще рассматривают статистику как часть ИИ.

Я устал разбираться с этими аргументами.

Сегодня мы видим слово «ИИ» везде и в средствах массовой информации. Мне очень неудобно, потому что эти утверждения слишком преувеличены. Мы не достигли искусственного интеллекта, мы не достигли интеллекта, и мы даже не знаем, что это такое. Мы говорим, что все современные системы связаны с вводом и выводом данных, они на самом деле имитируют какие-то очень умные вещи, но это всего лишь имитации, а вовсе не разум, и мы его не реализовали.

Сегодня многие люди с удовольствием используют модное словечко «ИИ». Но для них это всего лишь способ продать некоторые из своих концепций венчурным капиталистам (венчурному капиталу), корпорациям, СМИ и широкой публике. Что касается настоящего ИИ, то нас там вообще нет. Хотя я больше не бросаюсь спорить о правильности и неправильности этих слов, я все еще постоянно напоминаю себе в своем сердце: мы еще не создали так называемый ИИ.

Я очень рад, что у нас есть такое сообщество, и сейчас нам действительно нужны конструктивные усилия, и они должны быть серьезными и трезвыми. Не вся шумиха заключается в том, чтобы разбогатеть на золотой лихорадке ИИ, они также могут быть в состоянии по-настоящему реализовать ИИ, сделать мир лучше, сделать ИИ более стабильным и реальным, достаточно, чтобы поддержать создание a Понятия, необходимые для новых областей науки.

Это похоже на тех, кто любит гражданское строительство, любит инженеров-химиков, и я очень уважаю их настоящие усилия в своих областях. То, что они придумали, буквально изменило жизнь каждого, а это то, что нужно области ИИ и чего до сих пор не хватает.

▌Состояние области машинного обучения

БытьБыть

Теория машинного обучения развилась до высот, которые мы видели до сих пор,Я предвидел, что так будет еще двадцать лет назад: данные будут повсюду, а машинное обучение для принятия решений и бизнес-моделирования станет нашей привычкой. Но я ненавижу, когда люди внезапно называют это ИИ, и хотя в последнее время появляются новые идеи, это все еще просто машинное обучение.. Я с ними не спорю, это не значит, что я согласен с их утверждением. Наоборот, я буду более настойчив в своем стремлении.

В этом мире нет никакой магии, машинное обучение просто сопоставляет свои входные и выходные данные с имитацией какого-то механизма обработки, и хотя это кажется волшебным, все же остается много реальных проблем — например, в самом широком смысле, системных проблем на многих уровнях — ни одна из которых не была решена.

Машинное обучение также далеко не достаточно развито, чтобы быть надежным инженерным принципом., что приводит к надежным и масштабируемым решениям современных задач анализа данных. Есть много нерешенных проблем, связанных с неопределенностью, рассуждениями, принятием решений, надежностью и масштабом. Не говоря уже об экономических системах, потому что мы даже недостаточно думали о ценообразовании и поощрениях при построении систем. То же самое относится и к социально-правовой системе.

Я думал, что все это более или менее осознают, но время, которое потребовалось, чтобы они это поняли, было невероятно долгим.

Год назад Цукерберг сказал в своей речи о своем опыте создания Facebook: «Я ничего не знал и не играл никакой роли в этом процессе. люди не использовали его очень хорошо».

Мы должны следить не только за людьми, использующими платформу для плохих целей — например, с фейковыми новостями, — но и за тем, чтобы люди могли получать правильные результаты через эту платформу, иначе сотни тысяч людей примут неверные медицинские решения, плохие медицинские решения каждый день, условия дорожного движения или финансовые решения. Пока мы даже не продвинулись в решении этих проблем. Мы реагируем так, как будто говорим, что мы такие, какие мы есть.

Для меня системное машинное обучение слишком низкое. Многие люди в этом сообществе слишком сильно рекламируют глубокое обучение, у нас уже есть отличная обучающая машина под названием Backpropagation; мы собираемся сделать ее лучше, быстрее, проще в реализации, и все это произойдет в ближайшее время; компании будут сформированы и экономика пойдет вперед. Но это слишком низкая цель, это просто проблема непараметрической регрессии, и это даже не «да». Поэтому я надеюсь, что как сообщество мы можем стремиться к большему, и мы не можем просто пытаться упростить обратное распространение.

▌«АИ» = ИА + II

Теперь позвольте мне поговорить о том, почему я говорю, что компьютеры и мышление не связаны в сознании людей.

БытьБыть

На самом деле, когда я впервые попал в эту область, я кое-что узнал об ИИ, но не изучал его на самом деле. В то время было много идей по изучению ИИ, например поиск звезды с помощью поиска в ширину, чем Джон Маккарти действительно занимался в Массачусетском технологическом институте. (Примечание: Джон Маккарти, один из пионеров в области искусственного интеллекта, он инициировал и участвовал в знаменитой в истории ИИ Дартмутской конференции, а позже отправился в Стэнфорд и основал Стэнфордскую лабораторию искусственного интеллекта.)

История, которую я собираюсь рассказать, немного отличается от того, что вы привыкли слышать: концепция искусственного интеллекта не была тем, что Мински, Маккарти, Ньюэлл и остальные сели и обсуждали на встрече.

Когда Маккарти впервые прибыл в Массачусетский технологический институт, он сказал, что будет изучать интеллект и вычислительную технику. Они говорят, что это не кибернетика, кибернетика уже есть у Винера, и Маккарти объясняет разницу между двумя областями. Что действительно заставило людей осознать, что ИИ был новой областью, так это то, что он был больше основан на логике, чем на теории управления и оптимизации сигналов, поэтому ему пришлось дать ему новое имя, поэтому он ввел термин «искусственный интеллект». Я думаю, что история более реальная.

Однако странный поворот истории состоит в том, что все идеи по исследованию ИИ теперь на стороне Винера, они все об оптимизации статистики и не имеют логики, но слово «ИИ», которое все используют сейчас, по-прежнему принадлежит Маккарти. , слово.

Тем не менее, ИИ остается прекрасным видением. Это интересный философский вопрос о том, как вычислительные объекты должны сочетаться с аппаратным и программным обеспечением для создания чего-то, что захватывает интеллект.

Я думаю, что это все еще просто академическое видение, и я не думаю, что оно необходимо или достаточно для социального прогресса или промышленного развития. Я не верю в утверждение, что мы можем создать общий интеллект и что он может решить все проблемы в мире. Это просто глупая научная фантастика, и это не необходимо и не достаточно. Нам нужно освободить свой разум от некоторых реальных проблем. Есть много богатых и знаменитых людей, которые говорят, что мы собираемся построить общий искусственный интеллект, и тогда мы сможем решить проблемы в мире, такие как рак. Я не хочу говорить об этом, но люди всегда говорят это.

БытьВо всяком случае, теперь интересный момент, мы не пытаемся сделать все лучше. В то же время на самом деле произошел не большой успех ИИ, а большой успех «ИА» (Увеличение интеллекта).

Одним из примеров этого является поисковая система, система машинного обучения, которая постоянно получает данные и со временем совершенствует их для принятия более эффективных решений. Как и многие другие практические инженерные системы, это алгоритм машинного обучения, в котором задействовано много вещей, но это также означает много интеллекта. Например, мне не обязательно помнить столицу Беларуси, но я ее сразу узнаю, когда делаю поиск в Интернете. Я выгляжу очень умным, потому что я все знаю.

Я также могу говорить здесь по-английски и дать вам возможность услышать китайский, установив систему синхронного перевода. Кажется, что я могу говорить на многих языках, но на самом деле я не говорю по-китайски, потому что компьютер повысил мой интеллект. Многие из этих вещей глубокого обучения, я думаю, они интересны, но -- как вы видите много переносов стиля, когда люди вводят изображение, и оно трансформируется в другое классное изображение, похожее на картину Ван Гога, которая в качестве игрушки было бы очень интересно. Но на самом деле это повышает творческий потенциал людей.

Это «аугментация», а не то, что люди называют интеллектом. Но это уже забавно, с ним можно даже музыку сочинять, но глупо писать симфонии прямо с ним, какая разница, может компьютер писать симфонии или нет, что бы это ни значило. Но он может обеспечить творческую среду для рождения следующего Бетховена или великого художника, и это то, что действительно захватывающе, и это ИА.

БытьЕсть нечто более важное, что я назову «II», что означает «Интеллектуальная инфраструктура». То, что происходит вокруг нас, все больше и больше отражает то, что мир знает о нас.

Например, мир подключается, просто щелкнув телефоном, я могу за несколько секунд записаться на прием к машине, которая доставит меня к месту назначения. Мир становится умнее благодаря сети — пока вы добавляете данные в большую сложную систему, добавляете людей, это Интернет вещей. Это экономический рынок на триллион долларов, и он меняет человеческую жизнь, меняет ваше представление о здравоохранении, финансах и повседневной жизни. Все это очень большие изменения, и они действительно произошли за последние несколько десятилетий.

Это напоминает мне Amazon — они были первой компанией, которая серьезно занялась этим, и в 90-х годах, задолго до того, как мы раскрутили эту концепцию. В настоящее время многие компании создают системы прогнозирования логистики и мошенничества, а также рекомендательные системы, и это отличные вещи, но это все машинное обучение, а не то, что я называю ИИ, и настоящий ИИ будет чем-то большим, чем то, что мы видим прямо сейчас. , Увлекательно.

БытьБыть

Я думаю, что здесь есть разрыв. Если вы изучаете ИИ таким классическим способом, вас могут заинтересовать зрение, речь, обработка естественного языка и робототехника, потому что вас интересует этот конкретный агент, который действует разумно, как мы. Все, о чем вы думаете, касается конкретных агентов, поэтому вы можете разрабатывать алгоритмы на основе сценариев и превращать их в объекты, метки или речь. Все это замечательно, но это не решает и десятой доли реальных проблем, с которыми мы сталкиваемся при построении реальной системы. Это просто «IA» или «II», и внимание людей отвлекается на визуальные или фонетические проблемы.

▌Нерешенные классические проблемы ИИ

БытьБыть

Хотя некоторые классические проблемы ИИ кажутся близкими к решению, я бы сказал, что на самом деле мы далеки от решения этих классических проблем ИИ.

В компьютерном зрении мы можем маркировать объекты и сцены лучше, чем раньше, но это не настоящие сцены, а просто изображения, содержащие объекты из Интернета. Если вы тестируете тот же тренировочный набор, вы можете получить 90% правильных результатов, но в реальном мире, вероятно, только 20%. Таким образом, мы просто аннотируем объекты в сцене и на самом деле не решаем проблему. И в чем смысл сцены? Что происходит на сцене? Что будет дальше? Мы еще даже не знаем. Поэтому люди говорят, что некоторые вещи, которые получает технология компьютерного зрения, смешны.

То же самое касается фонологической и семантической областей. В общем, мы живем в звуковом мире, который опирается на слух, но с закрытыми глазами мы далеки от того, чтобы понимать окружающий мир, просто слыша звук. Поскольку нет семантической информации, невозможно даже запустить обработку естественного языка.

Перевод — это не ввод строк на одном языке и получение строк на другом языке, которые вы уже видели много раз. Я бегло говорю по-французски, вы общаетесь со мной по-английски, и я могу понять, что вы говорите, я переведу понятия в ваших словах во французский словарь вместо того, чтобы сопоставлять английские строки с правильными французскими строками. Вы даже можете попытаться сделать это правильно в 90% случаев, но это все равно не сработает.

Методы видения могут применяться с помощью контролируемой маркировки и некоторых методов неконтролируемой маркировки, но не естественного языка. Если вы мне не верите, попробуйте прочитать статью Дугласа Хофштадтера в The Atlantic Monthly на днях. Он делает вывод, сравнивая переводы на четыре языка: английский, французский, немецкий и китайский:Google Translate на самом деле не понимает язык даже с искусственным интеллектом.

Язык — это поистине человеческий разум, содержащий иронии, метафоры, цитаты и отсылки ко всем видам вещей в этом мире. Семантику можно понять только в том случае, если мы действительно понимаем мир, это требует понимания человеческого социального поведения, концептуального поведения, чего нельзя достичь с помощью маркировки данных и множества строк..

Вернемся к теме. Мы только что говорили о переводе, теперь поговорим о диалоге.

Беседа — это не просто чат-бот, который может продолжать с вами разговаривать, хотя это звучит интереснее.На самом деле это попытка достичь цели, например, я хочу забронировать рейс в Париж, что включает в себя все виды моих собственных сложных предпочтений, а затем в конечном итоге может привести меня туда.. Так что у нас должен быть диалог, чтобы постепенно воплощать мою волю в реальные действия с помощью роботов, но мы еще далеки от этого.

Когда дело доходит до робототехники, вы знаете, что она имеет большой прогресс. Но я все еще очень скептичен,Современные промышленные роботы могут работать только в очень ограниченных условиях.. У нас уже есть роботы, взаимодействующие с людьми, но я не думаю, что это будет работать в нашей среде без проблем.

▌Недавние проблемы в машинном обучении

БытьБыть

Теперь перейдем к разговору о технологиях. Если вы занимаетесь системным машинным обучением и думаете, что ваша жизнь будет поддерживать подход к глубокому обучению, который я также считаю очень полезным, но есть целая куча других вещей, которые даже не являются ИИ.

Несколько решений, статистики говорят об этом все время, но люди, занимающиеся машинным обучением, почти не говорят об этом. Вы можете построить нейронную сеть, которая должна вводить некоторые изображения или маркетинговую информацию в поисковых системах (SEM) или даже некоторую историческую информацию о данных, чтобы принять решение. Он принял бы сотни тысяч решений, используя одну и ту же нейронную сеть для разных людей в разных средах, и это было бы полной катастрофой.

Эти решения могут быть совершенно неправильными. Например, если вы едете на определенном транспортном средстве в дождливый день, все могут в конечном итоге выехать на одном и том же автомобиле на одну и ту же улицу, что обязательно вызовет заторы. Соответствующие колебания решений могут привести к изменениям в конечном результате, даже если это не удовлетворяет допущению IID.

Наша нынешняя система по-прежнему предполагает, что мы живем в идеальном мире., поэтому всегда будет доля ложных открытий. гипотезы). Система должна поддерживать частоту ложных открытий, а не только логистическую регрессию, деревья решений в нейронных сетях. Если бы ваша система не поддерживала его, я бы не стал использовать его в своей компании.

Чтобы иметь систему, которая создает такой рынок, я думаю, необходимо учитывать ряд факторов. Итак, мы собираемся привнести экономику в нашу систему, нам нужна двусторонняя связь между потребителями и производителями, а не просто создание платформы, на которую люди могут загружать данные и получать от них ответы, без создания реальной системы.

Неопределенность существует и сегодня.Начальная загрузка, байесовская теория, складной нож и другие принципы, о которых мы говорим в статистике, еще не установлены в системах информатики..

Это просто входы и выходы, дающие кривую ROC, как будто она проделала работу, которой на самом деле не было. Так как же включить в него интеллект? Как разрешить тот факт, что они несовместимы? Это очень важная проблема, которую мы должны решить, и мы должны исходить из того, что с этими проблемами может справиться компьютерная наука.

Когда дело доходит до абстракции, люди на самом деле очень хорошо замечают абстракцию. Например, я могу придумать новое слово «Блек» и сказать что-нибудь о «Блек», и вы сможете узнать о нем все, что угодно. Вы можете рассуждать с помощью абстракций, и именно благодаря тому, что мы можем создавать абстрактные концепции, компьютерная наука так хорошо развилась.

Мой сын очень хорошо находит аналогии, метафоры и те забавные вещи, которые формируют новую абстракцию в его мозгу. Но нейронные сети так далеки от этого: нейронные сети должны просмотреть много данных, прежде чем в конце концов обнаружат новую функцию, или, если можно так выразиться, абстрактную.

Происхождение данных, что очень важно. На самом деле меня очень интересует наука о данных. В системе здравоохранения много случаев ложных срабатываний (ложных срабатываний), приводящих к множеству смертей. Когда мой сын родился, были некоторые ложные результаты визуализации, и это был ложноположительный результат. Если мы верим этому пути принятия решений, мы можем пройти через очень опасную процедуру и даже убить плод. Я думаю, что это может случиться и с вами, и, по моим подсчетам, за последние несколько лет около 20 зародышей погибали каждый день из-за ложных срабатываний.

Ложные срабатывания связаны не с плохой статистикой, а с ошибочными результатами отчетности.Данные, рассчитанные в определенной ситуации, на самом деле неточны при использовании в новой машине обработки изображений в той же ситуации. Это звучит как неприятная проблема с базой данных. Но это то, что иногда усложняет работу с моделью.

Что касается долгосрочных целей, люди очень хорошо справляются с долгосрочными целями, такими как выбор карьеры, покупка дома. Наши машины, однако, не приспособлены для достижения долгосрочных целей. Не говорите мне об обучении с подкреплением, там тоже нет долгосрочной цели.

Цель производительности в реальном времени, я думаю, те, кто проектирует автомобили с автоматическим управлением, должны осознавать ее важность, а другие не осознали, что это ключевая часть нашего рассмотрения. Это также не является частью традиционного ИИ.

Если вы действительно амбициозный специалист по системам, вам предстоит решить большие проблемы, и в основном проблемы, которым уделялось мало внимания или не уделялось вообще никакого внимания, но для их решения потребуется некоторое время.

▌Машинное обучение и креативность на рынках

Некоторые из моих мнений основаны на моих исследованиях и опыте работы с компанией. Сегодня я поделюсь с вами двумя взглядами.

БытьБыть

Что касается того, что я на самом деле делаю, то я всего лишь теоретик-исследователь, поэтому, что касается импульса развития этих нейронных сетей, я бы хотел, чтобы это произошло, но когда я вижу, что все собираются вместе и движутся в одном направлении, я будем искать другие направления. Вся работа, которую я делаю сейчас, — это доказательство скоростей сходимости и теорем о случайности. Вы поймете, как я взволнован в эти дни, если прочитаете мою домашнюю страницу, но я формирую эти мнения на основе своего (практического) опыта работы в компании. чем доказывая их.

United Masters Inc. — американская сервисная платформа для музыкантов, анонсированная в ноябре 2017 года. Сейчас так много музыкантов и создается так много музыки, но, за исключением тех немногих, кто обладает властью, большинство музыкантов не зарабатывают деньги с первого же заказа, а за создание музыки на самом деле не платят.

Есть много причин, почему это происходит, например, мы находимся на рынке, который не работает, и есть много ценности, которую можно создать, если экономика производителей и потребителей связана. У него нет посредника между производителями и потребителями, как у звукозаписывающих компаний, и в этой модели это не работает. Поэтому вам нужно заняться чем-то другим, например, Uber, или какой-либо другой реальной возможностью, которую вы видите.

United Masters сотрудничает с такими компаниями, как Spotify и Youtube, и имеет доступ ко всем данным. Они познакомятся с любым артистом, не только с певцами мирового уровня, такими как Бейонсе, но и с сотнями или тысячами менее известных артистов, и узнают, какие пользователи слушают их музыку. Они дают артистам возможность показать: я знаю, что я не очень знаменит, но я знаю, что во Флориде 10 000 человек любят регулярно меня смотреть.

Это сарафанное радио означает, что если я пойду туда на концерт, то смогу заработать 25 000 долларов. Я могу заниматься этим три или четыре раза в год, и это зарплата в 100 000 долларов. Мне больше не нужно быть таксистом, и у меня есть время заниматься музыкой только по выходным каждую неделю. На самом деле я мог бы быть действительно активным музыкантом на постоянной основе, как и многие люди. Это может создать рынок, на котором вы знаете, кто слушает вашу музыку, и тогда вы сможете сделать больше.

Это фактически создает связь между производителем и потребителем. Благодаря этому соединению, как только данные передаются, покупка и продажа товаров могут быть более плавными. Таким образом, артист может сказать, что вы платите 20 000 долларов, и я могу выступить на вашей свадьбе, или вы мой большой поклонник, и вы хотите вернуться за кулисы... все эти товары могут прийти в форме, и компания фактически предоставляет это это способ заработать деньги. Конечно, они должны получить немного денег за предоставление этих платформ, конечно, стандартный агент не может получить 50% гонорара, но 10% — это примерно то же самое, так что вы знаете, что у вашей мечты о музыкальном мастере действительно есть Надежда.

Генеральный директор этой компании — Стив Стаут, потрясающий парень и один из самых умных людей, которых я когда-либо встречал. Он работал на звукозаписывающей компании Sony, позже основал Translation Advertising и занимался многими практическими делами. Он знает многих музыкантов, а опыт Стива и его музыкальное прошлое позволяют ему правильно соединить музыку, технологии и людей. Я думаю, это очень здорово, что наше сообщество может участвовать в такого рода деятельности, и Стив только что дал ключ.

Я попросил его произнести вступительную речь в прошлом году. Этот разговор был о хип-хопе, самоутверждении и освобождении, творчестве и о том, как это связано с наукой о данных.

▌Машинное обучение и обмен данными

Теперь есть также проблема обмена данными.

Все это просто идеи, я буду экспериментировать, если будет время, все это эксперименты идей. Это лишь некоторые из моих исследовательских предложений, которые могла бы сделать моя команда. Наше время в основном доказывает теоремы, но вот идея эксперимента по обмену данными.

БытьБыть

Обмен данными не проблема для «ИИ», но это реальная проблема "II". У многих компаний есть данные, которые были бы им полезны, если бы они могли собрать их воедино, но обычно это запрещено. Это не разрешено законом по многим причинам, например, компания может подвергнуться взлому или мошеннической атаке в определенный день, но это может произойти со всеми компаниями одновременно или может быть характерно только для конкретной компании. .

Если бы вы объединили все данные, вы могли бы создать лучший классификатор в мире и сохранить уязвимость системы к мошенничеству на достаточно низком уровне, но люди этого не делают. Зачем? много причин.Как вы можете мотивировать их начать делиться данными?Вы отправляете мне свои данные, потому что я являюсь доверенным центральным лицом, и я буду защищать ваши данные с помощью механизма паролей или других средств.

Я бы взял ваши данные, построил идеальный классификатор и отправил бы их обратно. Я никому не передам ваши данные. Но это не очень интересно, потому что в полученных мной данных могут быть мошеннические данные. Для компаний, если они помещают в систему реальные данные, другие получают больше преимуществ, чем они, поэтому они не отправляют качественные данные, они не дураки.

Итак, каково качество данных, которые они должны отправлять? Какие стимулы должны быть у систем, чтобы позволить им измерять качество отправляемых данных? Есть также проблемы с конфиденциальностью, и их юристы подчеркивают, что данные не отправляются. Итак, здесь, с точки зрения машинного обучения, один из способов заключается в том, чтобы позволить каждой компании самой решать, какое качество данных или конфиденциальность они хотят отправить, или что-то еще, что они хотят делать с данными. Например, они должны добавить шум к данным, прежде чем передать их с уверенностью. Их устроит такая несколько дифференцированная частная система.

Теперь, когда данные приходят ко мне, я создам классификатор со всеми этими данными и посмотрю, как этот классификатор работает на тестовом наборе. Что мне нужно сделать после этого, так это отложить данные одной компании, а затем использовать данные других компаний в качестве обучающего набора для получения классификатора, а затем посмотреть, насколько хорошо работает классификатор. Затем сравните полученные классификаторы, исключив данные разных компаний. Если полученный классификатор является лучшим, когда данные компании являются обучающей выборкой, это означает, что данные, предоставленные компанией, хороши.

Я могу количественно оценить качество данных, используя только функцию потерь в классическом методе раздаточных материалов. Что я делаю сейчас для каждой компании, так это откладываю их в сторону по одному, а затем узнаю, насколько хороши данные, которые они мне присылают, насколько хороши, по их мнению, они хотят мне прислать, и насколько данные различаются. И как только я это узнаю, я смогу оценить, и теперь я делаю лучший классификатор в мире. Но я верну им модель или результаты прогнозирования в зависимости от качества данных, которые они мне присылают.

Это тоже можно сказать экономика.Я настроил игру,есть какие-то концепции стимулов,может быть и равновесие по Нэшу,не говоря уже о том,что качественные данные никто не присылает. Но предложение может быть исследованием, и оно может быть неплодотворным.

В заключение, если вы сможете думать нестандартно о многих вещах, у этого сообщества будет много путей для развития. Я не думаю, что группа, занимающаяся только глубоким обучением, может достичь этого.

Полный адрес видео:Woohoo.YouTube.com/watch?V=4in…