модель максимальной энтропии

машинное обучение искусственный интеллект алгоритм
модель максимальной энтропии

В жизни мы часто слышим, как люди говорят: «Не кладите все яйца в одну корзину», чтобы снизить риск. Посмотрите внимательнее, почему это? На самом деле он содержит так называемый принцип максимальной энтропии (The Maximum Entropy Principle).

Принцип максимальной энтропии

В случае известных ограничений мы должны удовлетворять этим ограничениям при моделировании, а относительно других условий делать наиболее сложные и общие предположения. Это даст результаты, более близкие к реальности. В общем случае это предположение является принципом максимальной энтропии. Потому что энтропия имеет наибольшее количество информации и наибольшую неопределенность.

Принцип максимальной энтропии утверждает, что при изучении вероятностной модели среди всех возможных моделей распределения вероятностей модель с наибольшей энтропией является лучшей моделью.

модель максимальной энтропии

Примените принцип максимальной энтропии кпроблема классификации, получаем модель максимальной энтропии. Наша цель — использовать принцип максимальной энтропии для выбора наилучшей модели классификации, то есть для любого заданного входа x∈X она может вывести y∈Y с вероятностью p(y|x).

Характеристика Функция

Для фактических признаков мы обычно используем метод функций признаков, чтобы количественно преобразовать их в числа, чтобы мы могли выполнять вычисления. Обычно мы используем бинарное определение:

Таким образом, мы можем использовать это значение функции для расчета нашего эмпирического распределения.

эмпирическое распределение

Давайте сначала проясним, что наша модель максимальной энтропии распространяется с неизвестной целью. Другими словами, мы не знаем распределения за пределами ограничений, поэтому мы используем максимальную энтропию, чтобы предположить эквивалентное распределение.

Первое условное распределение вероятностей уже неизвестно, так как же вычислить последующую энтропию? Вы должны знать, что формула расчета энтропии неотделима от вероятности. В настоящее время мы вводим эмпирическое распределение, которое должно использовать наблюдаемые данные в качестве опыта для имитации реального распределения. Это похоже на то, как мы рассчитываем вероятности, но в строгом математическом смысле это не представляет собой распределение реальных данных, даже если выборок достаточно.

Используя функцию признаков в качестве источника входных данных, мы вычисляем эмпирическое распределение:f(x,y) = количество единиц/общее количество., исходная формула расчета:

Ограничения

Если мы выберем модель, которая фиксирует информацию в истинном обучающем наборе, то мы можем предположить, что ожидаемые значения двух моделей равны. Это дает:

Две формулы расчета:

Конечно, это только ограничение по умолчанию, то есть окончательная выбранная целевая модель должна удовлетворять этому ограничению. Но это не значит, что только это ограничение, нам нужно по-другому решать практические задачи. Например, мы знаем, что вероятность того, что на костях выпадут 1 и 6, равна 3/20 (при условии, что кости не четные), то это дополнительное условное ограничение.

Чтобы помочь вам понять ограничения, здесь приведены более полные и подробныеГеометрическая интерпретация ограничений:

约束条件的几何解释

Расчет энтропии

Это цель, которую мы хотим оптимизировать, энтропия. Наша цель состоит в том, чтобы максимизировать энтропию модели и использовать эту модель в качестве нашей окончательной модели. Предположим, что набор моделей, удовлетворяющих всем ограничениям, таков:

Мы определяем условную энтропию, определенную на распределении вероятностей P(Y|X), как:

Друзья, не знакомые с условной энтропией, могут посмотреть Википедию дляУсловная энтропияописание.

Изучение модели максимальной энтропии

Процесс обучения модели максимальной энтропии представляет собой процесс решения модели максимальной энтропии. Мы также можем упростить этот процесс как процесс оптимизации с ограничениями.Эквивалентная задача оптимизации с ограничениями выглядит следующим образом:

Сначала мы преобразуем эту задачу максимизации в задачу минимизации в соответствии с общей привычкой. Вы можете отрицать исходную формулу. Формула после преобразования выглядит следующим образом:

Затем мы начинаем решать задачу оптимизации с этим ограничением:

Поскольку исходная задача выпукла, ее двойственная задача имеет то же решение, что и исходная задача, поэтому мы сосредоточимся на решении ее двойственной задачи. Здесь я вставляю решение в «Статистические методы обучения», чтобы помочь вам понять:

один пример