Границы байесовского машинного обучения

Источник: Human-Machine and Cognitive Lab.

Резюме: В связи с быстрым развитием больших данных машинное обучение, основанное на вероятности и статистике, в последние годы привлекло большое внимание промышленности и академических кругов и достигло многих важных и успешных применений в областях зрения, речи, естественного языка, биологии, и т.п.

Резюме

В связи с быстрым развитием больших данных машинное обучение, основанное на вероятности и статистике, в последние годы привлекло большое внимание промышленности и академических кругов и достигло многих важных успешных применений в области зрения, речи, естественного языка, биологии и других областях. также быстро развивались за последние 20 лет и стали очень важным классом методов машинного обучения. Обобщены последние достижения байесовских методов в машинном обучении, включая основные теории и методы байесовского машинного обучения, непараметрические байесовские методы и общие методы рассуждений, а также регуляризованные байесовские методы. Наконец, дается краткое введение и перспективы крупномасштабной байесовской задачи обучения, а также обобщается и просматривается тенденция ее развития.

Ключевые слова

Байесовское машинное обучение, непараметрические методы, методы регуляризации, обучение на больших данных, байесовское обучение на больших данных

Машинное обучение является популярным направлением исследований в области искусственного интеллекта и распознавания образов, а его теории и методы широко используются для решения сложных задач в инженерных приложениях и науке. Лауреатом премии Тьюринга 2010 года является профессор Лесли Валлиант из Гарвардского университета, одна из его отмеченных наградами работ заключается в установлении вероятностной приблизительно правильной (вероятно, приблизительно правильной, PAC) теории обучения; лауреатом премии Тьюринга 2011 года является Калифорнийский университет в Лос-Анджелесе. Профессор Джуда Перл, основной вклад которого заключается в создании методов искусственного интеллекта, основанных на вероятности и статистике, и результаты его исследований способствуют развитию и процветанию машинного обучения.

Важной ветвью машинного обучения является байесовское машинное обучение.Байесовский метод возник из частного случая теоремы Байеса, доказанной британским математиком Томасом Байесом в 1763 году [1-2]. Благодаря совместным усилиям многих статистиков байесовская статистика постепенно утвердилась после 1950-х годов и стала важной частью статистики [2-3]. Теорема Байеса известна своим уникальным пониманием степени субъективной уверенности в вероятности [4]. С тех пор байесовская статистика широко и широко применяется во многих областях статистического машинного обучения, таких как апостериорный вывод, оценка параметров, обнаружение моделей и модели скрытой переменной вероятности [5-6]. Он имеет более чем 250-летнюю историю с 1763 г. по настоящее время, за это время байесовские статистические методы достигли большого прогресса [7]. Сегодня, в 21 веке, все виды знаний интегрированы, и область байесовского машинного обучения будет иметь более широкие сценарии применения и играть большую роль.

1. Основы байесовского обучения

В этом разделе будет дано краткое введение в байесовские статистические методы [5]: включая теорему Байеса, методы вывода байесовских моделей и некоторые классические концепции байесовской статистики.

1.1 Теорема Байеса

использовать представляет параметры вероятностной модели, а D представляет заданный набор данных. Априорное распределение и функция правдоподобия для данной моделиВ случае апостериорное распределение модели может быть получено по теореме Байеса (также известной как формула Байеса) [2]:

(1)

вфункция предельного правдоподобия модели.

Теорема Байеса хорошо известна, а вот менее известное представление байесовского эквивалента, вариационного вывода, основанного на оптимизации:

(2)

где P — нормализованное пространство распределения вероятностей. Можно доказать, что оптимальное решение вариационной оптимизации в уравнении (2) эквивалентно результату апостериорного вывода в уравнении (1) [8]. Эта вариационная форма теоремы Байеса важна по двум причинам: 1) она обеспечивает теоретическую основу для вариационных байесовских методов [9]; 2) она обеспечивает хорошую основу для облегчения. Апостериорные ограничения приводятся для повышения гибкости байесовской модели [10]. Эти два момента будут подробно рассмотрены в следующих главах.

1.2 Байесовское машинное обучение

Байесовские методы имеют множество применений в области машинного обучения, от одномерной классификации и регрессии до многомерного прогнозирования структурированных выходных данных, от обучения с учителем до обучения без учителя и полуучителя и т. д. Байесовские методы используются практически в любой учебной задаче. Ниже приводится краткое введение в основные общие задачи.

1)предсказывать. Учитывая обучающие данные D, прогноз будущих данных x получается байесовским методом [5]:

(3)

Следует отметить, что когда дана модель, данные взяты из независимой и одинаково распределенной выборки, поэтомуОбычно упрощается до.

2)выбор модели. Еще одним очень важным применением байесовских методов является выбор модели [11], что является более фундаментальной проблемой в области статистики и машинного обучения. Пусть M обозначает семейство моделей (например, линейных моделей), где каждый элемент Θ является конкретной моделью. Выбор байесовской модели выбирает оптимальную путем сравнения функций правдоподобия разных семейств моделей:

(4)

Когда нет очевидного предшествующего распределения,считается равномерно распределенным. Благодаря интегральной операции уравнения (4) выбор байесовской модели позволяет избежать переобучения.

Для более подробного содержания байесовской статистики и байесовского обучения в некоторых статьях и учебниках есть дополнительные пояснения].

2 непараметрических байесовских метода

В классической параметрической модели количество параметров модели фиксировано и не изменится при изменении данных. Возьмем в качестве примера неконтролируемую модель кластеризации, если количество центров кластеров можно автоматически узнать из самих данных, это намного лучше, чем установка параметра на основе опыта в параметризованной модели (такой как K-средние, смешанная модель Гаусса, и др.); это также является более важным преимуществом непараметрических моделей. По сравнению с параметрическими байесовскими методами непараметрические байесовские методы обладают преимуществом в сильной способности описывать данные из-за непараметрических характеристик их априорных распределений [13].С 2000 года им уделяется больше внимания [14]. Например, неявные смешанные модели с неизвестными размерностями [15] и неявные модели признаков [16], гауссовы процессы, описывающие непрерывные функции [17] и т. д. Следует подчеркнуть, что непараметрический байесовский метод означает не отсутствие у модели параметров, а то, что модель может иметь бесконечное число параметров, причем количество параметров может адаптивно изменяться при изменении данных. Проблемы приложений в среде данных особенно важны, поскольку одной из характеристик больших данных является динамичность и изменчивость. Ниже кратко представлены некоторые из наиболее важных моделей и методов вывода.

2.1 Процесс Дирихле

Процесс Дирихле (ДП) — это стохастический процесс, определяемый вероятностной мерой Ω, предложенной статистиком Фергюсоном в 1973 г. [18], его параметры включают централизованный параметр α>0 и базовое распределение вероятностей.

, обычно обозначаемый как G~. Распределение вероятностей, полученное с помощью процесса Дирихле, является дискретным и поэтому очень подходит для построения смешанных моделей.Например, Антониак построил смешанную модель процесса Дирихле в 1974 году, добавив вероятность генерации к каждой точке данных (Дирихле технологическая смесь, ДПМ) [15], а именно

(5)

в,— это параметр, который генерирует распределение вероятностей каждой точки данных, например, среднее значение и ковариация гауссовского распределения, а N — количество точек данных.

Стохастическим процессом, эквивалентным процессу Дирихле, является процесс китайского ресторана (CRP) [19]. Процесс китайского ресторана — это своего рода стохастический процесс со свойствами кластеризации, определенными в поле действительных чисел, и он часто используется из-за его уникальных и хороших свойств отображения. Как показано на рисунке 1, в процессе работы китайских ресторанов предполагается наличие бесконечных столов и нескольких гостей, первый клиент выбирает первый стол, а последующие клиенты выбирают стол согласно полиномиальному распределению, и вероятность выбор каждого стола пропорционален количеству людей, сидящих в данный момент за столом, и при этом с определенной вероятностью (пропорциональной параметру α) выбирают стол, где никого нет. Видно, что когда все гости выбрали стол, мы можем разделить гостей по таблице. Здесь каждая таблица представляет собой кластер, а каждый гость представляет точку данных.

Можно доказать, что все параметры точки скопления θ можно получить по формуле (6):

(6)

Процесс китайского ресторана можно получить, интегрируя G в модель смеси Дирихле, которая также показывает взаимосвязь между двумя стохастическими процессами. Эта краткая формулировка также полезна для выборки марковских методов Монте-Карло [20].

Еще одним конструктивным представлением процесса Дирихле является конструкция ломания стержня [21]. В частности, k-й разрез палки единичной длины пропорционален случайной величине, распределенной согласно бета-распределению по оставшейся длине:

(7)

То есть, как показано на рисунке 2, для палки длиной 1 первый рездлину, а оставшуюся часть обрезать для каждого последующего резапропорциональная длина. Формулировка процесса Дирихле по принципу «отсечка» лежит в основе вариационного рассуждения [22].

2.2 Индийский шведский стол

В отличие от смешанной модели, где каждая точка данных принадлежит только одному кластеру, в модели признаков каждая точка данных может иметь несколько признаков, что составляет процесс генерации данных. Это также соответствует фактическому требованию, чтобы в реальной ситуации выборочные точки данных имели несколько атрибутов. Классические модели признаков в основном включают факторный анализ и анализ основных компонентов [24-25]. В традиционных моделях признаков количество признаков фиксировано, что ограничивает производительность модели. Процесс индийского буфета (IBP) был предложен в 2005 г. [26].Из-за его непараметрических характеристик количество признаков в модели можно узнать из данных, чтобы модель могла лучше объяснить данные.Это было используется в факторном анализе, предсказании ссылок в социальных сетях и других важных задачах [27-29].

Взяв в качестве примера бинарные («0» или «1») признаки, предполагая, что имеется N точек данных, а векторы признаков всех точек данных образуют матрицу признаков, процесс производства IBP можно наглядно представить как N клиентов для бесконечное количество клиентов. Процесс выбора еды в столовой с несколькими приемами пищи, используйте «1», чтобы указать выбор, и «0», чтобы указать отсутствие выбора. Конкретное описание показано на рисунке 3:

1) Первый клиент выбираетпитание, в том числе ;

2) Возможны две ситуации для второго и последующих клиентов: 1. Для выбранного блюда блюдо выбирается с вероятностью, пропорциональной количеству людей, выбравших блюдо, 2. Выборне выбранный прием пищи, из которых .

Как и в китайском ресторане, в индийском буфете также есть соответствующий процесс нарезки палочек [30]. Я не буду повторять их здесь, а лишь перечислю их конструктивные выражения следующим образом:

(8)

Но отличие от процесса нарезки палочек в китайском ресторане состоит в том, что сумма длин палочек не равна 1. Индийский процесс «шведский стол» также имеет соответствующий метод выборки и метод решения вариационной оптимизации [16,30-31].

2.3 Применение и расширение

Байесовские методы, особенно популярные в последнее время непараметрические байесовские методы, нашли широкое применение в различных областях машинного обучения и получили очень хорошие результаты [32]. Здесь кратко предложено несколько приложений и расширений; соответствующие приложения крупномасштабного байесовского обучения будут представлены в разделе 5, а также можно найти соответствующую литературу [13-14, 33].

Классические непараметрические байесовские методы обычно предполагают, что данные обладают простыми свойствами, такими как взаимозаменяемость или условная независимость, однако реальные данные часто имеют другую структуру и зависимости. Чтобы адаптироваться к различным потребностям, большое внимание уделяется разработке стохастических процессов с различными свойствами зависимости. Например, при тематическом анализе текстовых данных данные часто поступают из разных областей или типов, и мы обычно надеемся, что темы, которые необходимо изучить, имеют определенную иерархическую структуру, поэтому иерархический процесс Дирихле (ППД) [34] ] ], который может автоматически изучать многослойные представления тем и автоматически определять количество тем. Кроме того, был предложен процесс IBP с несколькими слоями [35], который использовался для изучения структуры сетей глубоких убеждений, включая количество слоев нейронов, количество нейронов в каждом слое и структуру связи нейронов между ними. слои. Другие примеры включают бесконечные скрытые марковские модели с марковскими динамическими зависимостями [36], процессы Диракли с пространственными зависимостями [37] и т. д.

Кроме того, в задачах обучения с учителем непараметрические байесовские модели также недавно привлекли большое внимание. Например, важным вопросом является моделирование и прогнозирование данных социальных сетей.Недавно предложенные непараметрические байесовские модели на основе IBP [27, 29] могут автоматически изучать скрытые функции и определять количество функций, достигая хороших результатов прогнозирования. Хорошие результаты были также достигнуты при использовании смешанной модели DP для одновременных задач кластеризации и классификации [38].

3 Методы вывода для байесовских моделей

Метод вывода байесовской модели является важной частью байесовского обучения, и качество метода вывода напрямую влияет на производительность модели. В частности, ключевая проблема с байесовскими моделями заключается в том, что апостериорное распределение обычно неразрешимо, что делает байесовские интегралы в уравнениях (3) и (4) также неразрешимыми. В настоящее время необходимы некоторые эффективные методы рассуждения. Вообще говоря, существует два основных типа методов: вариационные методы вывода и методы Монте-Карло. Оба этих двух типа методов широко используются в области байесовского обучения.Два типа методов представлены ниже.

3.1 Методы вариационного вывода

Вариационный метод является широко используемым приближенным методом оптимизации [39-40], который решил многие задачи в области физики, статистики, финансового анализа и науки об управлении. В области машинного обучения вариационные методы также имеют множество применений: с помощью вариационного анализа неоптимизационные задачи могут быть преобразованы в задачи оптимизации для решения, а некоторые сложные задачи также могут быть решены приближенными методами [41].

В вариационном байесовском подходе при заданном наборе данных D и апостериорном распределении, которое необходимо решить длявариационный метод определяет приближенное распределение его апостериорного распределения как. Используя неравенство Джейсона, можно получить нижнюю границу (нижняя граница доказательства, ELOB) логарифмической вероятности.

(9)

Максимизируя эту нижнюю границу логарифмического правдоподобия:

(10)

или минимизироватьиРасхождение KL между ними может завершить процесс оптимизации. Поэтому основная идея вариационного вывода состоит в том, чтобы преобразовать исходную задачу в задачу оптимизации для решения приближенных распределений и объединить эффективные алгоритмы оптимизации для выполнения задачи байесовского вывода [22, 42-43].

Много раз в модели Θ есть некоторые параметры θ и скрытые переменные h. В настоящее время вариационная задача может быть решена методом максимизации вариационного ожидания (вариационный EM-алгоритм): путем введения предположения о среднем поле, алгоритм EM можно выполнять итеративно [44].

3.2 Метод Монте-Карло

Метод Монте-Карло — это своего рода оценка неизвестного распределения вероятностей с использованием смоделированных случайных чисел; когда неизвестное распределение трудно оценить напрямую или пространство поиска слишком велико, а вычисление слишком сложно, метод Монте-Карло становится важным выводом и расчетный метод [45-46]. Например, байесовское машинное обучение часто требует вычисления математического ожидания функции при определенном распределении (априорном или апостериорном), и это вычисление обычно не имеет аналитического решения. Предположениепредставляет собой распределение вероятностей, и цель состоит в том, чтобы вычислить интеграл следующим образом:

(11)

Основная идея метода Монте-Карло состоит в том, чтобы аппроксимировать I с помощью следующей оценки:

(12)

вявляется образцом, полученным от P. Согласно закону больших чисел, когда количество выборок достаточно велико, метод Монте-Карло может быть хорошей оценкой истинного ожидания.

Вышеизложенное описывает основной принцип метода Монте-Карло, но выборку p нелегко получить в реальном процессе, и часто используются другие методы.Обычно используемые методы включают выборку по важности и выборку по отклонению, выборку), цепь Маркова. Монте-Карло (MCMC) и др. Первые два более эффективны, когда распределение относительно простое, но они часто неэффективны для сложных распределений в многомерных пространствах и сталкиваются с проблемой проклятия размерности. Далее основное внимание уделяется методу MCMC, который также эффективен в многомерных пространствах.

Основная идея метода MCMC состоит в том, чтобы построить случайную цепь Маркова так, чтобы она сходилась к заданному распределению вероятностей, чтобы достичь цели рассуждения [47]. Более широко используемым методом MCMC является алгоритм Метрополиса-Хастингса [48] (алгоритм MH). В алгоритме MH, построивстатус доПравила перехода состояния:

1) Согласнополучить новый образец состояния из старого образца состояния;

2) Рассчитайте вероятность принятия:

(13)

3) Выборка из равномерного распределения 0-1[0, 1]. как, затем принять выборку, иначе отклонить выборку.

Другим широко используемым методом MCMC является выборка Гиббса [46, 49], которая является частным случаем алгоритма MH, и выборка Гиббса широко используется в выводах байесовского анализа. Метод Гиббса заключается в выборке каждой переменной в многомерном распределении по очереди при условии, что известны другие наблюдаемые и отобранные переменные, обновлении существующих параметров и, наконец, сходимости для получения целевого апостериорного распределения. Предполагается, что для выборки используется многомерное распределение, то есть каждый раз выбирается одно измерение j: 1≤j≤d, где d — многомерное распределение.размерности , то из условного распределения вероятностейправильнопробовать.

Многие байесовские модели приняли метод MCMC для вывода и достигли хороших результатов [20, 30, 50]. Кроме того, существует класс методов MCMC неслучайного блуждания — MCMC Ланжевена [51] и гибридный метод Монте-Карло [52]. Этот тип метода, как правило, имеет более высокую скорость сходимости, но сложность выражения относительно велика, поэтому он не так популярен, как выборка Гиббса.Тем не менее, метод выборки на основе стохастического градиента, недавно разработанный в среде больших данных, очень популярен. Текст будет кратко представлен.

4. Регуляризованная байесовская теория и примеры ее применения

В разделе 2 упоминаются два эквивалентных представления байесовских методов, одно из которых представляет собой метод апостериорного вывода, а другое представляет собой метод оптимизации, основанный на вариационном анализе.Второй метод был более популярен в последние годы.Большое развитие. Основываясь на этом отношении эквивалентности, мы недавно предложили регуляризованную байесовскую теорию вывода (RegBayes) [10]: как показано на рисунке 4, в классическом байесовском процессе вывода апостериорное распределение может быть определено только из двух измерений, а именно: функции распределения и правдоподобия, а в регуляризованном байесовском выводе апостериорный вывод преобразуется в метод вариационной оптимизации, который обеспечивает байесовский вывод путем введения апостериорной регуляризации.Трехмерная степень свободы значительно обогащена, что значительно увеличивает гибкость байесовской модели . Под руководством теории RegBayes мы систематически изучали дискриминационное байесовское обучение на основе критерия максимального интервала и байесовское обучение в сочетании со знанием предметной области и получили ряд результатов [].

Базовая структура регуляризованного байесовского вывода может быть кратко описана следующим образом: на основе формулы (2) вводится член апостериорной регуляризации и рассматриваются знания предметной области или ожидаемые свойства модели:

(14)

где – выпуклая функция. При использовании RegBayes для решения конкретных задач вам необходимо ответить на следующие три вопроса:

Вопрос 1. Откуда берется апостериорная регуляризация? Апостериорная регуляризация — это общая концепция, которая может охватывать любую информацию, которая, как ожидается, повлияет на апостериорное распределение. Например, в задачах обучения с учителем (таких как классификация изображений/текста) мы ожидаем, что апостериорное распределение будет точно предсказывать, и в этом случае мы можем использовать частоту ошибок классификации (или некоторую верхнюю границу) в качестве цели оптимизации посредством апостериорная регуляризация относится к процессу обучения, типичные примеры включают бесконечный метод опорных векторов [38] (бесконечный SVM), бесконечный неявный метод опорных векторов [56] (бесконечный SVM), тематическая модель с максимальным запасом [57] (тематическая модель с максимальным запасом ), MedLDA) и т. д., все эти методы используют принцип максимального интервала, напрямую минимизируют верхнюю границу частоты ошибок классификации (т. е. функцию потери шарнира) в байесовском процессе обучения и обеспечивают значительное улучшение производительности на тестовых данных.

Кроме того, в некоторых учебных задачах некоторые знания предметной области (например, экспертные знания или общедоступные знания, собранные с помощью краудсорсинга) могут предоставить некоторую информацию за пределами данных, что очень помогает улучшить производительность модели. В этом случае знания предметной области могут быть включены в модель вместе с данными в качестве апостериорного ограничения для эффективного байесовского обучения. Следует отметить, что в общедоступных знаниях часто много шума, и ключом к решению проблемы является то, как принять эффективную стратегию фильтрации шума для достижения эффективного обучения. В связи с этим мы предлагаем надежно ввести знания предметной области с использованием логических выражений в байесовские тематические модели, достигнув лучшей производительности модели [58].

Вопрос 2. Какова связь между априорным распределением, функцией правдоподобия и апостериорной регуляризацией. Априорное распределение не имеет отношения к данным, а распределение вероятностей, основанное на априорных знаниях, не может отражать статистические характеристики данных; функция правдоподобия — это распределение вероятностей, сгенерированное на основе данных, отражающее основные свойства данных, и обычно определяется как имеющая хорошую аналитическую форму Нормализованное распределение вероятностей. Термин апостериорной регуляризации также определяется характеристиками данных, однако имеет более широкий и гибкий характер и не ограничивается нормализацией, поэтому может более легко и точно описывать свойства задачи или предметной области, такие как как проблема Примеры максимального интервального обучения и объединения знаний предметной области с байесовской статистикой приведены в 1. Можно даже показать, что некоторые апостериорные распределения не могут быть получены с помощью теоремы Байеса, но могут быть получены с помощью апостериорной регуляризации [10]. Таким образом, RegBayes является более гибким и мощным методом, чем классические байесовские методы.

Вопрос 3. Как решить проблемы с оптимизацией. Хотя регуляризованный Байес чрезвычайно гибок, его алгоритм обучения все еще может быть решен с использованием вариационных методов или методов Монте-Карло.Пожалуйста, прочтите соответствующие документы для конкретных методов решения. Байесовские теории обучения больших данных и алгоритмы, представленные ниже, могут быть применены для быстрого решения регуляризованной байесовской модели [55], которая также является актуальной областью исследований.

5 Байесовское обучение для больших данных

С развитием Интернет-технологий изучение теорий, алгоритмов и приложений машинного обучения, ориентированных на большие данные, стало актуальным направлением исследований [59]59, которому уделяется большое внимание академических кругов и промышленности. Байесовская модель обладает хорошей адаптируемостью к данным и масштабируемостью и достигла хороших результатов во многих классических задачах.Однако основная проблема традиционной байесовской модели заключается в том, что ее метод вывода обычно медленный.Особенно в контексте больших данных, трудно адаптироваться к требованиям новых моделей. Поэтому то, как применять широкомасштабные байесовские методы обучения, является одной из важных задач в научных кругах. Хорошей новостью является то, что в последнее время был достигнут значительный прогресс в байесовском обучении на основе больших данных (BigBayes). Ниже приводится краткое введение в развитие стохастических алгоритмов и распределенных алгоритмов, а некоторые результаты наших исследований используются в качестве примеров. В таблице 1 представлен краткий обзор некоторых текущих границ:

5.1 Стохастический градиент и метод онлайн-обучения

Когда объем данных велик, точные алгоритмы часто занимают много времени и не могут удовлетворить потребности. Распространенным классом решений является использование алгоритмов стохастической аппроксимации [60-61]. Этот тип алгоритма может сходиться к лучшим результатам за более короткое время за счет случайной подвыборки крупномасштабных наборов данных. Эта идея широко применяется в алгоритмах вариационного вывода и Монте-Карло, которые кратко представлены ниже.

С точки зрения вариационного рассуждения, как упоминалось выше, его ядром является решение задач оптимизации, поэтому естественным выбором становится алгоритм стохастического градиентного спуска, основанный на множественной случайной субдискретизации. В частности, стохастический градиентный спуск (SGD) [62] случайным образом выбирает подмножество данных за раз и использует градиент, рассчитанный для подмножества, для оценки градиента всего набора данных и обновления параметров, которые необходимо решить.

(15)

где Q — оптимизируемая целевая функция, представляющая собой t-е подмножество данных. Стоит отметить, что градиент в евклидовом пространстве не является оптимальным направлением для решения вариационного распределения, для оптимизации распределения вероятностей естественный градиент часто достигает более высокой скорости сходимости [63]. Основные недавние достижения включают стохастические вариационные байесовские методы [61] и различные быстро улучшающиеся алгоритмы, использующие свойства модели [64] [64].

С точки зрения алгоритмов Монте-Карло методы стохастического градиента могут использоваться для улучшения соответствующих алгоритмов выборки на основе градиента, таких как стохастическая градиентная динамика Ланжевена (SGLD) [65], стохастический градиентный гамильтониан Монте-Карло (стохастический гамильтониан Монте-Карло, SHM) [66] [66]. Эти алгоритмы ускоряют выборку методом Монте-Карло и дают лучшие результаты.

Пример 1. Чтобы удовлетворить требования к обработке динамических потоковых данных, широкомасштабные алгоритмы байесовского вывода, основанные на онлайн-обучении, также стали предметом недавних исследований. Недавно мы предложили фреймворк онлайн-байесовского пассивно-агрессивного обучения (Online BayesPA), который значительно повышает эффективность обучения регуляризованного байесовского обучения и дает теоретическую оценку ценности онлайн-обучения с сожалением [55]. Некоторые экспериментальные результаты на более чем 1 миллионе данных страниц Википедии показаны на рисунке 5. Видно, что алгоритм, основанный на онлайн-обучении, работает примерно в 100 раз быстрее, чем пакетный алгоритм, и не теряет точности классификации.

5.2 Распределенные алгоритмы рассуждений

Другой алгоритм, подходящий для крупномасштабных байесовских задач обучения, основан на распределенных вычислениях [68], то есть байесовских алгоритмах вывода, развернутых в распределенных системах. Этот тип алгоритма должен тщательно учитывать реальные сценарии применения алгоритма, всесторонне учитывать стоимость расчета алгоритма и связи, а также разрабатывать алгоритмы вывода, подходящие для различных распределенных систем.

Некоторым параметрам в некоторых алгоритмах не нужно обмениваться информацией, а нужно только вычислять итоговую сводку результатов; для таких задач необходимо только правильно оптимизировать исходный алгоритм и развернуть его в системе для достижения лучших результатов. Однако существует гораздо больше алгоритмов, которые не подходят для параллельной обработки, а это означает, что сам алгоритм необходимо модифицировать, чтобы он мог выполнять распределенные вычисления, что также является одной из горячих точек исследований в крупномасштабном байесовском обучении, и многие были достигнуты важные успехи, включая распределенный вариационный вывод [67] и распределенные методы Монте-Карло [69] и т. д.

Пример 2. Взяв в качестве примера тематические модели, классические модели используют сопряженные априорные оценки Дирихле, которые могут изучать крупномасштабные тематические структуры [70], но не могут изучать ассоциации между темами. С этой целью была предложена коррелированная тематическая модель (CTM) [71] с использованием несопряженных логистико-нормальных априорных значений. Недостатком CTM является то, что его алгоритм рассуждений относительно сложен, а существующие алгоритмы могут иметь дело только с изучением структуры графа десятков тем. С этой целью исследовательская группа автора недавно предложила распределенный алгоритм рассуждений для CTM [72], который может обрабатывать крупномасштабные наборы данных и изучать структуру графа между тысячами тем. Часть результатов алгоритма показана в таблице 2, где D представляет размер набора данных, а K представляет количество тем. Из Таблицы 2 видно, что алгоритм распределенных рассуждений (т. е. gCTM) значительно улучшает объем данных, которые может нести модель (например, 6 миллионов страниц Википедии) и больше тем (например, 1000). Код и дополнительная информация для этого проекта опубликованы, и читатели могут сами просмотреть [73].

На основе вышеупомянутого изучения крупномасштабной структуры тематической карты визуальный интерфейс «Панорама темы» получил дальнейшее развитие, которое может интегрировать несколько структур тематической карты и отображать их в одном и том же интерфейсе в удобной для пользователя форме. на рисунке 6 каждый узел представляет собой тему, ребра между узлами представляют отношение ассоциации, а длина ребра представляет силу связи.Используемый набор данных — это веб-страницы новостей трех ИТ-компаний, таких как Microsoft, Гугл и Яху. Инструмент визуализации имеет множество интерактивных функций.Пользователи могут использовать функцию увеличения или уменьшения масштаба, чтобы внимательно просмотреть часть тематической карты.В то же время структуру карты также можно изменить и отправить обратно в фоновый алгоритм для онлайн-настройки. Несколько экспертов в предметной области согласились с тем, что этот инструмент может облегчить анализ данных социальных сетей. Более подробные описания можно найти в [74].

5.3 Аппаратное ускорение

С развитием аппаратного обеспечения использование аппаратных ресурсов, таких как графические процессоры (GPU) и программируемая пользователем вентильная матрица (FPGA), для ускорения байесовских методов обучения также стало актуальным направлением исследований. Например, некоторые исследователи используют технологию GPU для ускорения вариационного метода тематической модели [75] и алгоритма MCMC [76-77], а некоторые исследователи используют FPGA для ускорения алгоритма Монте-Карло [78]. Используя мощное аппаратное оборудование с соответствующей архитектурой модели и алгоритма, можно достичь вдвое большего результата, затрачивая вдвое меньше усилий.

6 Резюме и перспективы

Байесовский статистический метод и его применение в области машинного обучения являются важным исследовательским содержанием байесовского обучения. Благодаря адаптивности и масштабируемости байесовской теории байесовское обучение получило широкое распространение. Непараметрические байесовские методы и регуляризованные байесовские методы значительно развили байесовскую теорию и сделали ее более мощной.

В последние годы в центре внимания оказалось байесовское обучение большим данным, а также то, как повысить гибкость байесовского обучения и как ускорить процесс рассуждений при байесовском обучении, чтобы сделать его более адаптируемым к задачам эпохи больших данных. вопросы, которые люди рассматривают. В течение этого периода будет предложено множество новых методов и теорий, а байесовское обучение также будет сочетаться со многими другими аспектами знаний, такими как параллельные вычисления, наука о данных и т. д., для получения множества новых результатов. Можно ожидать, что байесовское обучение определенно будет иметь более новые и лучшие результаты, а также будет иметь более широкое применение в будущем.

Zhu Jun. born in 1983. Associateprofessor and PhD supervisor in Tsinghua University. His current researchinterests include machine learning, Bayesian statistics, and large-scalelearning algorithms and applications.

Hu Wenbo, born in 1992.PhDcandidate in Tsinghua University. His current research interests includemachine learning and scalable Bayesian learningmethods(hwb13@mails.tsinghua.edu.cn).

Лаборатория будущего интеллекта — это перекрестное исследовательское учреждение в области искусственного интеллекта, Интернета и науки о мозге, созданное совместно учеными в области искусственного интеллекта и соответствующими учреждениями Академии наук. Он был основан Лю Фэном, автором теории эволюции Интернета и компьютерным доктором, а также профессорами Ши Юн и профессором Лю Ином из Исследовательского центра виртуальной экономики и науки о данных Китайской академии наук.

Основная работа Лаборатории будущего интеллекта включает в себя: создание системы оценки IQ интеллектуальной системы ИИ и проведение мировой оценки IQ искусственного интеллекта; услуги уровня Smart для отраслей и городов.

Если вас интересуют лабораторные исследования, добро пожаловать на онлайн-платформу Future Intelligent Laboratory. Отсканируйте QR-код ниже или нажмите «Прочитать исходный текст» в левом нижнем углу этой статьи.