1. Модель логистической регрессии
1.1 Построение логистической модели
для набора данныхимеют Базовой идеей модели логистики также является линейная регрессия, и ее формула такова:
Уравнение (1.1) называется сигмовидной функцией, вообще говоря, еслиКлассификационное решение равно 1, в противном случае - 0.
1.2 Оценка параметров
Предполагать, то функция правдоподобия:
Цель состоит в том, чтобы найтисделатьдостигает максимального значения, обычно используемогоградиентное восхождение.
2. Модель максимальной энтропии
2.1 Принцип максимальной энтропии
Прежде всего необходимо прояснить два вопроса:
- Какой смысл максимизировать энтропию?Ранее мы упоминали, что информационная энтропия представляет собой степень неопределенности, поэтому энтропия является наибольшей, то есть неопределенность системы является наибольшей, и в системе нет индивидуального субъективного предположения.
- Что такое максимальная энтропия?Когда вы хотите угадать распределение вероятностей, если вы ничего не знаете о распределении, угадайте равномерное распределение с наибольшей энтропией, а если вы знаете некоторые условия распределения, угадайте распределение с наибольшей энтропией, которое удовлетворяет этим условия.
Следующие два URL-адреса описаны более четко:
- Графика Принцип максимальной энтропии
- Деревья решений — сноски: Почему в случае равновероятности энтропия может достигать максимального значения?
2.2 Модель максимальной энтропии
После прочтенияМодель максимальной энтропии для интервью с машинным обучением", Мое понимание:
Предположим, что имеется набор данных с выборочным пространством N, всегоособенность, для, метка класса, наша цель состоит в том, чтобы, то по N фрагментам данных в выборочном пространстве можно вычислитьи(Поскольку она рассчитывается на основе известных данных и не может представлять распределение в реальном мире, сверху добавляется волнистая линия), а затем определяется функция:
"еслиУдовлетворяя некоторому условию», эта фраза сначала озадачила меня, а потом я понял, что ее можно рассматривать как,1, если эта комбинация встречается в пространстве выборки, 0 в противном случае. Их количествоКусок.
В этом случае можно считатьОжидание:
- Характеристика ФункцияоОжидаемое значение:
Поскольку наша цель состоит в том, чтобы, то с помощью формулы Байеса мы можем вывести вторую формулу расчета математических ожиданий:
Если эти две формулы могут быть равны, то она совершенна (Обратите внимание, что здесьрассматривается какограничения), поэтому имеем:
в соответствии сИз определения мы видим, что существует столько комбинаций функций и меток классов, сколько существуетОграничения:. Затем, считая все ограничения в выборочном пространстве,
И потому, что условная энтропия: (Почему см. здесь:«Дерево решений [реализация Python]» — условная энтропия)
То есть мы хотим найти в этом пространстве «модель без каких-либо субъективных предположений», то есть максимальную энтропию условной вероятности.
2.3 Целевая функция модели максимальной энтропии
Найдите задачу условной оптимизации, давайте решим ее.
1. Превратить задачу нахождения максимума в задачу нахождения минимума. Требовать
эквивалентно поиску
Знакомство с оператором Лагранжа, можно получить уравнение:
2. Из задачи оптимизации наша цель состоит в том, чтобы найти:
двойная проблема
Основная идея такова:решениевыскажи, а потом спросиможно решить.
а) сначала спросить:
когдаКогда ограничения выполнены, пусть
ПредполагатьРешение, попрошайничествоправильночастная производная от , и пусть это будет 0:
Формула (2.10), то есть:
потому что, в формулу (2.11) входят:
Пусть (2.12) есть, подставляем в (2.11), результат записывается как, то есть
Поэтому цель оптимизацииРешением является уравнение (2.13), гденазываетсякоэффициент нормализации.
б. Чтобы максимизировать (2.13), найти
спросить
В уравнении (2.6), посколькувВ условиях имеем:
будет
Подставляя в формулу (2.15), получаем
Поскольку уравнение (2.17) не имеет явного аналитического решения, необходимо прибегнуть к численным методам. Поскольку это гладкая выпуклая функция, существует множество способов ее решения. Методы, которые могут быть использованы:
- Обобщенное итеративное масштабирование (ГИС: Обобщенное итеративное масштабирование).
- Улучшенное итеративное масштабирование (IIS: улучшенное итеративное масштабирование).
- Алгоритм градиентного спуска
- Метод квазиньютона (метод Ньютона)
Среди них первые два метода специально разработаны для модели максимальной энтропии, а последние два метода являются общими алгоритмами.
№ 3. Два вопроса к душе
3.1 Почему максимизация двойных функций = оценка правдоподобия моделей максимальной энтропии
3.1.1 Максимизация двойной функции
Если это не просто понять, вы можетевидно как оФункция.
3.1.1 Оценка правдоподобия модели максимальной энтропии
Поскольку формула (2.1)
Итак, формула (3.1)=(2.16). Следовательно, максимизация двойственной функции = оценка правдоподобия модели максимальной энтропии.
3.2 Какова связь между логистической моделью и моделью максимальной энтропии?
3.2.1 логистическая модель
модель бинарной классификации
Мультиклассовая модель
Общее выражение логистической модели
3.2.2 Модель максимальной энтропии
Когда есть только две метки класса, модель максимальной энтропии является моделью логистической регрессии.конкретная причина