Педро Домингос глубоко анализирует суть основных алгоритмов пяти основных школ машинного обучения.

машинное обучение алгоритм Нейронные сети обеспечить регресс

Педро Домингос — профессор информатики и инженерии в Вашингтонском университете и один из соучредителей Международной ассоциации машинного обучения. Эта статья представляет собой сборник речи Педро Домингоса из Google, посвященной машинному обучению.

Начнем с простого вопроса, откуда именно берутся знания? Три ранее известных источника:

1. Эволюция - из вашей ДНК

2. Опыт - от ваших нервов

3. Культура. Эти знания приходят от общения с другими, чтения и обучения и т. д.

Почти все в нашей повседневной жизни исходит из этих трех источников знаний, а недавно появился четвертый источник — компьютеры. Сейчас все больше и больше знаний исходит от компьютеров (и эти знания тоже открываются компьютерами).

Появление компьютерных источников является очень большим изменением для первых трех, эволюция естественным образом присутствует на земле. Опыт — это то, что отличает нас от животных и насекомых, а культура — то, что делает нас людьми.

Каждый из этих четырех отличается на порядки от первого, который также раскрывает больше знаний. Компьютер на несколько порядков быстрее, чем предыдущие три, и может сосуществовать с несколькими другими реализациями.

Янн Лекун, директор Facebook AI Research Group

В будущем большая часть знаний в мире будет извлекаться машинами и останется в них.

Таким образом, машинное обучение — это не только большое изменение для ученых-компьютерщиков, но и то, что должны понять обычные люди.

Так как же именно компьютеры открывают новые знания?

1. Заполните пробелы в существующих знаниях

Очень похоже на то, как ученые работают, наблюдают — делают предположения — объясняют с помощью теории — добиваются успеха (или терпят неудачу, пробуют что-то новое) и т. д.

2. Моделирование мозга

Величайшая обучающая машина в мире — это человеческий мозг, так что давайте реконструируем его.

3. Смоделируйте эволюционный процесс

Эволюционный процесс в некотором смысле даже больше, чем человеческий мозг (потому что он создает ваш мозг, ваше тело и все остальное на земле), поэтому стоит понять и использовать компьютер для выполнения операций.

4. Систематически уменьшайте неопределенность

То, что вы узнаете, не обязательно верно, и когда вы получаете что-то из данных, вы не совсем в этом уверены. Таким образом, используя вероятности для количественной оценки этой неопределенности, вероятности различных гипотез могут уточняться по мере того, как вы видите больше доказательств. Это также можно сделать с помощью байесовской теории.

5. Обратите внимание на сходство между старыми и новыми знаниями.

Рассуждая по аналогии, в психологии есть свидетельства того, что люди делают это все время. Когда вы сталкиваетесь с ситуацией, вы ищете похожие ситуации в предыдущем опыте и соединяете их.

Пять школ машинного обучения (основные алгоритмы)

Символизм - Логика, Философия - Обратная дедукция

верить в заполнение пробелов в существующих знаниях

Коннекционизм - Неврология - Обратное распространение

Надеюсь вдохновиться тем, как работает мозг

Эволюционизм - Эволюционная биология - Генетическое кодирование

Генетический алгоритм

Байесовский - Статистика - Вероятностный вывод

Поведенческая аналогия — Психология — Ядра машин (машины опорных векторов)

Представители символизма:

Том Митчелл, Стив Магглтон, Росс Куинлан

обратный вычет

Том Митчелл, Стив Магглтон, Росс Куинлан и другие считают, что научение представляет собой процесс обратной дедукции: рассуждение — это дедукция от общих правил к конкретным фактам, а индукция — как раз наоборот, суммирование общих принципов из конкретных фактов. Мы можем вывести принцип рассуждения из обратной зависимости между вычитанием и сложением.

Пример обратного воспроизведения:

Сократ человек + человек смертен = Сократ смертен

(Но компьютеры пока не понимают естественный язык)

Найдите биолога на картинке

На самом деле это машина. Машина на картинке — полноценный и автоматический биолог. Она также начинает учиться на ДНК, белках и РНК в молекулярной биологии. Используйте обратную дедукцию, чтобы выдвигать гипотезы, и планируйте эксперименты, чтобы проверить, верны ли эти гипотезы (без помощи человека). Потом дает результаты, уточняет гипотезы (или выдвигает новые).

К представителям коннекционизма относятся:

Джефф Хинтон, Янн Лекун, Йошуа Бенджио

один нейрон

Нейроны — очень интересные клетки, похожие на деревья. Нейроны представляют собой клетки с длинными синапсами (аксонами), которые состоят из клеточных тел и клеточных отростков. Длинные аксоны покрыты оболочкой, из которой состоят нервные волокна, а крошечные ответвления на их концах называются нервными окончаниями. Клеточные выпячивания представляют собой удлиненные части, отходящие от тела клетки, которые в дальнейшем можно разделить на дендриты и аксоны. Каждый нейрон может иметь один или несколько дендритов, которые могут получать стимуляцию и передавать возбуждение в тело клетки. Каждый нейрон имеет только один аксон, который может передавать возбуждение от тела клетки к другому нейрону или другой ткани, например мышце или железе. Нейроны связаны друг с другом, образуя большую нейронную сеть. Почти все знания, полученные людьми, существуют в синапсах между нейронами, и весь процесс обучения в основном происходит в процессе, когда один нейрон помогает другому нейрону излучать сигнал.

модель искусственного нейрона

Рабочий процесс искусственных нейронов: взвешенная комбинация входов,

Например: каждый вход — это пиксель, каждый взвешивается и объединяется, когда он превышает порог, на выходе 1, иначе результат 0.

Другой пример — на входе кот, когда все взвешенные комбинации превышают порог, нейрон может распознать, что это кот.

обратное распространение

Вопрос 1: Как вы обучаете сеть этих нейронов?

Нейронные сети имеют большое количество нейронов, которые необходимо вычислять слой за слоем, чтобы получить результат.

Вопрос 2: Что делать, если в операции произошла ошибка? Как вы вносите коррективы в большую неорганизованную нейронную сеть, чтобы получить правильный ответ?

Когда что-то идет не так, нейрон должен сработать, но этого не происходит. Неисправный нейрон может быть любым во всей сети, но найти его очень сложно. Это проблема, которую решает обратное распространение. Когда люди задумывали нейронные сети в 1960-х, они не думали об этом методе обратного распространения. Наконец, он был предложен в 1880-х Дэвидом Румельхартом и др.

Основная идея обратного распространения очень интуитивно понятна.Например, идеальный вывод должен быть 1, но фактический вывод равен 0,2, который необходимо увеличить.

Вопрос 3: Как отрегулировать вес, чтобы увеличить его?

Обратная связь через последующие нейроны к передним нейронам, слой за слоем назад, пока полученное значение не будет близко к истинному значению, это алгоритм обратного распространения (а также ядро ​​​​глубокого обучения).

В последнее время глубокое обучение используется в различных областях, таких как прогнозирование фондового рынка, поиск, реклама, распознавание видео, семантическое распознавание и т. д. Но для широкой публики самой известной является нейронная сеть Google, которая может распознавать кошек — в то время это была самая большая нейронная сеть из когда-либо построенных (вероятно, более 1 миллиарда параметров).

Эволюционные представители: Джон Холланд, Джон Коза, Хоп Липсон

Эволюционная теория утверждает, что обратное распространение — это просто корректировка весов в модели без полного выяснения того, что является реальным источником мозга. Так что разберитесь, как работает весь эволюционный процесс, а затем смоделируйте тот же процесс на компьютере.

Как работает генетический алгоритм?

Генетический алгоритм (Genetic Algorithm) — вычислительная модель процесса биологической эволюции, имитирующая естественный отбор и генетический механизм дарвиновской теории биологической эволюции, метод поиска оптимальных решений путем имитации процесса естественной эволюции. Генетический алгоритм начинается с популяции, которая представляет собой набор возможных потенциальных решений проблемы, а популяция состоит из определенного числа особей, закодированных генами. Каждый человек на самом деле представляет собой хромосомную (хромосомную) сущность с характеристиками. Хромосомы являются основным носителем генетического материала, то есть совокупностью множества генов.Ее внутреннее выражение (т.е. генотип) представляет собой определенную комбинацию генов, которая определяет внешнее выражение формы особи.Например,характеристики черного цвета волос контролируются хромосомами Признак определяется определенной комбинацией генов. Следовательно, в начале должно быть достигнуто отображение от фенотипа к генотипу, т.е. кодирование. Разные люди различаются своими генами, но, в отличие от людей, строительные блоки компьютеров — это всего лишь биты (0 и 1). Генетический алгоритм (Genetic Algorithm) — метод случайного поиска, возникший на основе эволюционных законов биологии (выживание наиболее приспособленных, генетический механизм выживания наиболее приспособленных). Впервые он был предложен профессором Дж. Холландом из США в 1975 г. Его основные характеристики заключаются в том, что он оперирует непосредственно со структурными объектами, не имеет ограничений на деривацию и непрерывность функций, ему присущ неявный параллелизм и лучшие возможности глобальной оптимизации. ; Используя метод вероятностной оптимизации, он может автоматически получать и направлять оптимизированное пространство поиска, а также адаптивно корректировать направление поиска без необходимости соблюдения определенных правил. Эти свойства генетических алгоритмов широко используются в комбинаторной оптимизации, машинном обучении, обработке сигналов, адаптивном управлении и искусственной жизни. Это ключевая технология в современных интеллектуальных вычислениях.

Генетическая манипуляция — это практика моделирования наследования биологических генов. В генетическом алгоритме после того, как исходная группа сформирована путем кодирования, задача генетической операции состоит в том, чтобы применить определенные операции к особям группы в соответствии с их приспособленностью к окружающей среде (оценка приспособленности), чтобы реализовать эволюционный процесс выживания особей. самый приспособленный.

генетический код

Так как работа по имитации генного кодирования очень сложна, мы часто упрощаем ее, например бинарное кодирование.После того как сгенерировано первое поколение популяции, по принципу выживания наиболее приспособленных и выживания наиболее приспособленных, поколение за поколением (поколение ) эволюционирует, чтобы давать все более и более приближенные решения. В первом поколении особи отбираются в соответствии с их пригодностью в проблемной области, а скрещивание и мутация объединяются с помощью генетических операторов естественной генетики для создания репрезентативной новой популяции. набор решений. Этот процесс приведет к популяции потомков, подобно естественной эволюции, которая более приспособлена к окружающей среде, чем предыдущее поколение.Оптимальная особь в популяции последнего поколения может быть расшифрована и может быть использована как приближенное оптимальное решение для проблема.

В настоящее время специалисты по генетическим алгоритмам не довольствуются моделированием на компьютере, они привнесли в реальный мир свою технологию — робототехнику. Сначала они использовали обычный режим робота, а когда они были достаточно хорошо обучены, они напечатали всего робота с помощью технологии 3D-печати, и напечатанный робот действительно мог выполнять такие действия, как ползание и ходьба. (Лаборатория Хода Липсона) Хотя эти роботы сейчас недостаточно хороши, они развивались довольно быстро по сравнению с тем, когда они только начинали.

Байесовский представитель: Дэвид Хекерман Иудея Перл Майкл Джордан

Байесовская теория всегда была нишевой областью, где жемчужина Иудеи была удостоена премии Тьюринга.

Байесовская теория

Теорема Байеса — это теорема теории вероятностей, которая следует условной вероятности машинных переменных и предельному распределению вероятностей. В некоторых интерпретациях вероятности теорема Байеса может подсказать нам, как использовать новые данные для изменения существующих убеждений.

где P(A|B) — вероятность того, что произойдет событие A, если произойдет событие B.

В теореме Байеса каждое существительное имеет условное имя:

P(A|B) — это условная вероятность события A после известного появления события B, также называемая апостериорной вероятностью события A из-за значения, полученного из числа B.

P(B|A) — это условная вероятность события B после известного появления события A, также называемая апостериорной вероятностью события B из-за значения, полученного из числа A.

P(A) — априорная вероятность или (или предельная вероятность) A. Это называется «до», потому что не принимает во внимание какие-либо факторы B-стороны.

P(B) — априорная или предельная вероятность B.

Апостериорная вероятность = (сходство * априорная вероятность)/нормализованная константа

То есть апостериорная вероятность пропорциональна произведению априорной вероятности и сходства.

Кроме того, отношение P(B|A)/P(B) иногда называют стандартизированным правдоподобием, а теорему Байеса можно выразить как:

Апостериорная вероятность = стандартное сходство * априорная вероятность

Байесовские механизмы обучения применяются во многих областях. Например, байесовские механизмы обучения встроены в «мозги» беспилотных транспортных средств. Таким образом, в каком-то смысле теорема Байеса играет большую роль в управлении транспортным средством или обучении его вождению.

Применение байесовского механизма обучения — спам-фильтр

Однако в качестве спам-фильтра применяется один байесовский механизм обучения, с которым, вероятно, знаком каждый. Первый спам-фильтр был разработан Дэвидом Хекерманом и его коллегами. Они просто используют очень предложенную байесовскую обучающую машину, наивный байесовский классификатор. Вот как работает классификатор: он основан на предположении, является ли электронное письмо спамом или нет, и, конечно, это предположение делается до того, как мы обнаружим содержимое электронного письма. Априорная вероятность, содержащаяся в нем, такова: когда вы оцениваете электронное письмо как спам с априорной вероятностью 90%, 99% и 99,999%, ваша гипотеза верна. Доказательство того, что это предположение верно или нет, заключается в фактическом содержании электронного письма. Например, если в содержании электронного письма содержится слово «Виагра», электронное письмо будет в значительной степени расценено как спам; когда в содержании электронного письма содержится слово «БЕСПЛАТНО» заглавными буквами, в значительной степени как спам Решение в качестве спама, когда четыре восклицательных знака появляются после слова «БЕСПЛАТНО», письмо будет рассматриваться как спам в значительной степени. Когда электронное письмо подписано именем вашего лучшего друга, это снижает вероятность того, что электронное письмо будет расценено как спам. Таким образом, элементарные байесовские классификаторы содержат эти «доказательства». В конце концов, классификатор рассчитает вероятность того, что электронное письмо является спамом или нет, и на основе рассчитанной вероятности решит, следует ли фильтровать электронное письмо или отправить его пользователю. Спам-фильтры позволяют нам эффективно управлять нашими почтовыми ящиками.

Сегодня в спам-фильтрах используется множество различных алгоритмов. Однако байесовский механизм обучения был первым, примененным к фильтрации спама, и использовался во многих других фильтрах фильтрации спама.

поведенческая аналогия

Наконец, как я уже упоминал, основная идея поведенческих аналогий заключается в том, что все, что мы делаем, все, чему мы учимся, выводится по аналогии. Так называемое рассуждение по аналогии наблюдает сходство между новой ситуацией, в которой нам нужно принять решение, и ситуацией, с которой мы уже знакомы. Одним из пионеров поведенческой аналогии был Питер Харт. Он подтвердил, что что-то связано с алгоритмом наилучшего соседства, первым алгоритмом на основе подобия, который будет объяснен более подробно позже. Владимир Вапник изобрел машину опорных векторов, машину ядра, которая в то время стала наиболее широко используемой и самой успешной машиной обучения на основе подобия. Это самые примитивные формы рассуждений по аналогии. Такие люди, как Дуглас Хофштадтер, также работают над многими сложными и высокотехнологичными обучающимися машинами. Дуглас Хофштадтер — не только известный специалист по количественным исследованиям и информатике, но и автор книги «Гёдель, Эшер, Бах». Его самая известная книга состоит из 500 страниц, и идея в том, что весь интеллект — это аналогия. Он решительно утверждает, что аналогия — главный алгоритм.

Алгоритм лучшего соседа

машина с ядром

Понимать примеры рассуждений по аналогии, алгоритмов наилучшего соседства и ядерных машин.

Ниже приведена головоломка для понимания этого момента. Предположим, даны две страны, и поскольку даны положительные и отрицательные примеры, я даю им воображаемые названия «Позистан» и «Негаланд». На схеме я не буду указывать границы двух стран, а только расположение крупных городов двух стран. Главные города Позистана отмечены знаком плюс, Позитиввилль — столица, и таким же образом отмечены главные города Негаленда. Задается вопрос: если я укажу основные города, можете ли вы сказать мне, где проходят линии границы? Конечно, однозначного ответа дать нельзя, потому что не города решают, где проходит линия границы. Однако это также проблема машинного обучения. Мы должны научиться обобщать.

Алгоритм наилучшего соседа может дать простой ответ на этот вопрос. То есть, если точка на карте находится рядом с положительным городом или любым отрицательным городом, то можно считать, что эта точка находится в Посистане. Это предположение привело бы к разделению карты на соседей города, так что Позистан был бы федерацией этих активных соседей города. Соседи города состоят из ближайших к нему точек. Таким образом, можно получить неровную граничную линию. Хотя алгоритм наилучшего соседа так прост, удивительно, что этот алгоритм вообще не работает даже на этапе обучения. Одна из причин, по которой некоторые рассуждения, связанные с этой проблемой, не идеальны, заключается в том, что результирующая линия границы может быть не самой правильной, потому что реальная линия границы может быть более гладкой. Во-вторых, если вы внимательно посмотрите на карту, вы можете потерять несколько городов, но это не сильно повлияет на конечный результат. Если этот город будет отброшен, он будет объединен с двумя другими городами, и окончательная граница не изменится. Единственное, что нужно сохранить, это те города, которые определяют линии границ, так называемые «векторы поддержки», которые обычно существуют в гиперпространстве. Так что в целом большое количество городов можно отбросить без какого-либо влияния на конечный результат. Однако в больших наборах данных отбрасывание большого количества данных повлияет на конечное выходное значение. Машины опорных векторов, или сокращенно машины ядра, решат эту проблему. Существует процедура обучения, которая отбрасывает примеры, которые не нужны для определения граничной линии, и сохраняет необходимые примеры, чтобы можно было получить гладкую граничную линию. В процессе определения линии границы SVM будет максимизировать расстояние между линией границы и ближайшим соседним городом. Вот как работают машины опорных векторов.

Рекомендуемая система

До того, как глубокое обучение закрепилось, машины опорных векторов, вероятно, были наиболее надежными алгоритмами обучения. Люди используют этот алгоритм обучения на основе аналогий с 1950-х годов, поэтому он применим практически ко всему на Земле. Мы все сталкивались с примерами применения этого алгоритма обучения, хотя, возможно, не осознавали, что он применим к алгоритму обучения, основанному на аналогиях. Это рекомендательная система. Например, я пытаюсь выяснить, какие фильмы было бы уместно порекомендовать вам, и, конечно, фольклор существует уже 20 лет, и это очень простая форма кино. Я не буду рекомендовать фильмы по категориям, потому что интересы людей сложны и разнообразны, и это будет большой загадкой. Я собираюсь использовать подход «совместной фильтрации», который заключается в том, чтобы найти пять человек со схожими вкусами и интересами с вашими, то есть вы дадите одному фильму пять звезд, а другому — одну звезду, как и они. Если фильму, который вы не видели, ставят пять звезд, могу по аналогии предположить, что этот фильм вам тоже понравится, так что могу его вам порекомендовать. Этот подход «совместной фильтрации» с использованием рассуждений по аналогии дал отличные результаты. Фактически, три четверти бизнеса Netflix извлекают выгоду из этой системы рекомендаций. Amazon тоже использует эту систему рекомендаций, которая составляет треть пути роста ее бизнеса. С тех пор люди использовали различные алгоритмы обучения для реализации этой системы рекомендаций, но алгоритм лучшего соседа — это самый ранний алгоритм обучения, примененный для изучения этой системы, а также один из лучших алгоритмов.

Источник статьи: Lei Feng.com

End