Заметки о машинном обучении (: Арбузная книга Чжоу Чжихуа (неоконченная)

искусственный интеллект

фокус

  • особенность:
  • Модель:
  • Стратегия:

Глава первая Введение

1.1 Основная терминология

  • классификация:Прогнозируемое значение является дискретным, когда есть только две категории, относительно "Мультикласс"(многоклассовая классификация) называется"двухклассный"(бинарная классификация), обычно один из классов называется "положительный класс" (positive class), другой класс - "отрицательный класс" (negative class).

  • регрессия:предсказывает непрерывное значение, например, спелость арбуза 0,95, 0,37....

  • кластеризация: разделите набор обучающих данных на несколько групп, каждая группа называется «кластером», и эти автоматически сформированные кластеры могут быть полезны для некоторыхПотенциальные концепции, аннотированные не человекомРазделять. Такое обучение помогает мне понять внутренние законы данных.

  • обучение с учителем и обучение без учителя: в соответствии сИмеют ли обучающие данные информацию о меткахУчебные задачи можно условно разделить на две категории. Среди них классификация и регрессия являются представителями первого, а кластеризация — представителем второго.

  • обобщение:Способность изученной модели применять к новым образцам, называемая способностью к обобщению.

1.2 Пространство гипотез

  • пространство версий: процесс обучения основан на ограниченном выборочном обучающем наборе, поэтому может быть несколько гипотез, согласующихся с обучающим набором, то есть существует «набор гипотез», совместимый с обучающим набором, который называется «пространством версий».

1.3 Индуктивные предпочтения

  • индуктивное смещение: предпочтение алгоритма машинного обучения определенному типу гипотезы в процессе обучения, называемое «индуктивным предпочтением» или, для краткости, «предпочтением». Любой эффективный алгоритм машинного обучения должен иметь индуктивный уклон, иначе он будет сбит с толку гипотезами в пространстве гипотез, которые кажутся «эквивалентными» на обучающем наборе и не могут дать детерминированные результаты обучения.Алгоритм обучения, который хорошо справляется с некоторыми проблемами, может плохо работать с другими, и индуктивное предпочтение самого алгоритма обучения часто играет решающую роль в том, подходит ли задача.

  • бритва Оккама: широко используемый и самый основной принцип в исследованиях естественных наук, а именно:Если несколько гипотез согласуются с наблюдениями, выберите самую простую из них.".

Глава 2. Оценка и выбор модели

2.1 Эмпирическая ошибка и переобучение

  • ошибка обучения или эмпирическая ошибка: Учащийся находится вна тренировочном комплексеошибка.

  • ошибка обобщения: существуетновый образецошибка.

  • переоснащение: Когда учащийся усваивает обучающие образцы «слишком хорошо», он, вероятно,Возьмите некоторые характеристики обучающих выборок в качестве общих свойств, которыми будут обладать все потенциальные выборки., это явление, которое приводит к ухудшению производительности обобщения, называется переоснащением.Полностью избежать переоснащения невозможно, все, что оно может сделать, это «смягчить»или уменьшить его риск.

  • недооснащение: По отношению к переоснащению это означаетОбщий характер обучающих выборок изучен плохо. Недообученность обычно вызвана плохой способностью к обучению, а затемлегче преодолеть.

2.2 Метод оценки

  • задержка:Разделите набор данных D непосредственно на два взаимоисключающих набора: один для обучающего набора S, а другой для тестового набора T.. Однако, поскольку обучающая выборка делится на тестовую, уменьшение обучающей выборки снижает достоверность результатов оценки. Обычной практикой является использование примерно 2/3~4/5 выборок для обучения и оставшихся выборок для тестирования.

  • перекрестная проверка:Разделите набор данных на k взаимоисключающих подмножеств одинакового размера, пройдите обучение k раз, каждый раз используйте объединение k-1 подмножеств в качестве тренировочного набора, а оставшееся подмножество в качестве тестового набора; окончательный результат - это среднее значение k результаты теста. Стабильность и достоверность результатов оценки метода перекрестной проверки в значительной степени зависят от значения k, поэтому, чтобы подчеркнуть этот момент, метод перекрестной проверки обычно называют «к-кратной перекрестной проверкой» (k-fold cross validation). перекрестная проверка). Когда k = количество выборок, получается частный случай метода перекрестной проверки:оставить одинМетод (Leave-One-Out, называемый LOO). Обучающая выборка, используемая в методе исключения одного, всего на одну выборку меньше, чем исходная выборка тестовых данных, поэтому результаты оценки часто считаются более точными, но когда набор данных относительно велик, вычислительные затраты на обучение м модели могут быть невыносимы.

  • Начальная загрузка:Самостоятельная выборка m раз с заменой из набора данных D, содержащего m, сгенерировать набор данных D' в качестве обучающего набора. Начальная загрузка полезна, когда набор данных небольшой и сложно эффективно разделить набор для обучения/тестирования.

  • Настройка параметров и окончательная модель: во время оценки и выбора модели, в дополнение к выбору применимого алгоритма обучения, также необходимо установить параметры алгоритма, которые обычно называют «настройкой параметров» или «настройкой параметров» для краткости. Обычной практикой на практике является выбор диапазона и изменение размера шага для каждого параметра.Например, если размер шага составляет 0,05 в диапазоне [0, 0,2], фактически необходимо оценить 5 значений параметра-кандидата.

2.3 Показатели производительности

Оценка способности учащегося к обобщению требует не только подходящего экспериментального метода оценки, но и стандарта оценки для измерения способности модели к обобщению, т.е.мера эффективности.

  • Частота ошибок: Частота ошибокКоличество неправильно классифицированных образцовпроцент от общей выборки.

  • точность: точностьКоличество правильно классифицированных образцовпроцент от общей выборки.

  • Точность и отзыв: уровень точности можно понимать как «какой процент полученной информации представляет интерес для пользователя». Отзыв — это «сколько информации, интересующей пользователя, было извлечено». Если вам нужна высокая скорость припоминания, вы намеренно улучшите свое понимание выбора, в результате чего некоторые варианты будут упущены, что снизит скорость припоминания; если вам нужна высокая скорость припоминания, вы попытаетесь выбрать все возможные варианты, что приведет к некоторым ошибкам. неотличные элементы также включены, что снижает точность. такТочность и полнота — противоречащие друг другу меры..

  • Мера F1: определяется на основе гармонического среднего значения точности и полноты. F1 этоFβ=((1+β2)*P*R)/((β2*P)+R)Fβ=((1+β^2)*P*R) / ((β^2 * P) + R)Особый случай, когда β=1, когда полнота и точность имеют одинаковую относительную важность; для средневзвешенных гармоникFβ, когда β>1, отзыв оказывает большее влияние; когда β

2.4 Сравнительный тест

  • Проверка гипотезы: Распределение частоты ошибок обобщения оценивается по частоте ошибок теста. Проверяются гипотезы о способности отдельных учащихся к обобщению.

  • t-тест перекрестной проверки: Основная идея заключается в том, что если два учащегося имеют одинаковую производительность, у них должна быть одинаковая частота ошибок при тестировании с использованием одного и того же обучающего/тестового набора. Поэтому используйте метод перекрестной проверки k-кратного размера для двух учащихся, чтобы получить коэффициенты ошибок теста двух групп A и B, а затем рассчитайте их по следующей формуле: Когда он меньше критического значенияtα/2, к-1, гипотеза не может быть отвергнута, то есть между двумя учащимися нет существенной разницы; в противном случае существует значительная разница, и учащийся с более низкой средней частотой ошибок имеет лучшую производительность. здесьtα/2, к-1является критическим значением, при котором кумулятивное распределение хвостов равно α/2 в t-распределении с k-1 степенями свободы.

Tt=(k)*μ/оTt = |(√k) * μ/σ|
  • перекрестная проверка 5x2: Для t-критерия перекрестной проверки важной предпосылкой для эффективной проверки гипотез является то, что частота ошибок теста является независимой выборкой частоты ошибок обобщения.Однако обычно из-за ограниченных выборок при использовании перекрестной проверки и других экспериментальных методов оценки. , Различные раунды обучения будут в определенной степени перекрываться, что делает коэффициенты ошибок теста фактически не независимыми, что приводит к переоценке вероятности того, что гипотеза верна. Чтобы решить эту проблему, можно использовать метод перекрестной проверки 5x2. То есть выполняется 5 раз 2-кратная перекрестная проверка, и данные случайным образом перемешиваются перед каждой 2-кратной перекрестной проверкой, чтобы разделение данных при 5-кратной перекрестной проверке не повторялось.

  • Тест Макнемара: Для задачи с двумя классами метод пропуска может не только оценить частоту ошибок при тестировании учащихся A и B, но также получить разницу между результатами классификации двух учащихся. Если предполагается, что производительность двух обучаемых одинакова, количество выборок обнаружения ошибок двух обучаемых должно быть равным, а именноe₀₁e₁₀|е₀₁ - е₁₀|, а абсолютное значение разницы равноe₀₁e₁₀|е₀₁ - е₁₀|подчиняться нормальному распределению. Тест Макнемара рассматривает переменную Tχ₂, формула следующая, которая подчиняется распределению χ² с 1 степенью свободы, то есть квадрату стандартной переменной нормального распределения. При значимом α, когда значение вышеуказанных переменных меньше критического значения χα², гипотеза не может быть отклонена, то есть считается, что результаты двух учащихся не имеют существенной разницы; в противном случае гипотеза отклоняется, и производительность двух считается значительно разной, а средняя частота ошибок меньше.Учащийся имеет лучшую производительность.

Tх=(e₀₁e₁₀1)²/(e₀₁+e₁₀)Tχ₂ = (|e₀₁ - e₁₀| - 1)² / (e₀₁ + e₁₀)
  • Тест Фридмана: по сравнению с t-критерием перекрестной проверки и тестом Макнемара, которые сравнивают производительность двух алгоритмов на одном наборе данных, этот метод чаще подходит, когда нам нужно сравнить несколько алгоритмов на наборе наборов данных. Тест Фридмана сравнивает Tχ² или, чаще, τF, формула следующая, обычно используемое критическое значение теста τF ищет в таблице. Если гипотеза о том, что «все алгоритмы имеют одинаковую производительность», отвергается, это означает, что производительность алгоритмов существенно различается, и для дальнейшего различия алгоритмов требуется «апостериорная проверка». Наиболее часто используется контрольный тест Неменьи.
Tх²=(k1)/k*12N/(k²1)(1>k)(ri(k+1)/2)²Tχ² = (k - 1) / k * 12N / (k² - 1)∑(1->k)(ri - (k + 1)/2)²
=12N/(k(k+1))((1>k)(ri)²((k(k+1)²)/4))= 12N/(k(k+1))(∑(1->k)(ri)² - ((k(k+1)²)/4))
  • Контрольный тест Неменьи: вычисляет диапазон критических значений CD для разницы средних порядковых значений. Формула qɑ выглядит следующим образом, и обычно используемое значение — поиск по таблице.
CD=qɑ*(√k(k+1)/6N)CD = qɑ * (√k(k+1)/6N)

2.5 Смещение и дисперсия

  • отклонение: смещение мера алгоритма обученияНасколько ожидаемый прогноз отличается от фактического результата, что сразу описывает подгоночную способность самого алгоритма обучения.

  • дисперсия: дисперсия измеряет тот же размерИзменения в эффективности обучения, вызванные изменениями в обучающей выборке, который сразу фиксирует влияние возмущений данных.

  • шум: Шум выражает то, чего может достичь любой алгоритм обучения в текущей задаче.Нижняя граница ожидаемой ошибки обобщения, что сразу отражает сложность самой проблемы обучения.

  • разложение смещения-дисперсии: Люди часто также хотят понять, «почему» у учащегося такая производительность, и декомпозиция смещения-дисперсии является важным инструментом для объяснения эффективности обобщения алгоритмов обучения. Ошибка обобщения может быть разложена на сумму смещения, дисперсии и шума. Разложение смещения-дисперсии показывает, что эффективность обобщения определяется способностью алгоритма обучения, адекватностью данных и сложностью самой задачи обучения. Для данной учебной задачи, чтобы добиться хорошей производительности обобщения, отклонение должно быть небольшим, то есть данные могут быть адекватно подобраны, а дисперсия должна быть небольшой, то есть влияние возмущения данных должно быть небольшим.

  • дилемма смещения-дисперсии: Вообще говоряПредвзятость и дисперсия находятся в конфликте, которая называется дилеммой смещения-дисперсии. Учитывая задачу обучения, предполагая, что мы можем контролировать, насколько хорошо обучен алгоритм обучения, тогдав процессе обучения, способность учащегося к подгонке недостаточно сильна, а нарушения обучающих данных недостаточно, чтобы учащийся значительно изменился.Предвзятость доминирует над частотой ошибок обобщения;По мере углубления обучения, способность учащегося к подгонке постепенно повышается, и учащийся может постепенно усвоить нарушение обучающих данных.Дисперсия постепенно преобладает над частотой ошибок обобщения.; После достаточного обучения способность учащегося к подгонке очень сильна, и небольшое нарушение обучающих данных приведет к значительным изменениям учащегося.Если будут изучены неглобальные характеристики обучающих данных, это произойдетпереоснащение.

Глава 3 Линейные модели

3.1 Основная форма

Линейная модель пытается изучить функцию, которая делает прогнозы на основе линейной комбинации атрибутов, т.е.f(x)=ю₁х₁+ю₂х₂+...+юdхd+bf(x) = ω₁х₁ + ω₂х₂ + ... + ωdхd + bОбычно записывается в векторной форме какf(x)=юТх+bf(x) = ωТх + b.Линейная модель проста по форме и легко моделируется, но содержит некоторые важные базовые идеи машинного обучения.. Многие более мощные нелинейные модели могут быть получены из линейных моделей путем введения иерархических структур или многомерных отображений.

3.2 Линейная регрессия

  • Линейная регрессия: Попытки изучить линейную модель для максимально точного прогнозирования выходных токенов с действительным значением. По заданному набору данных D={(х₁, y₁), (x₂, y₂), ..., (xm, ym)}, где xi=(xi₁; xi₂; ...; xid), и по общей формуле научилсяf(xi)=юхi+bf(xi) = ωхi + b, пусть f(xi)≌yi, то есть предполагаемое значение обучаемого приблизительно равно предсказанному значению, из которого мы определяем правила обучаемого w и b. А w и b измеряются путем минимизации среднеквадратичной ошибки, то есть формулы ② и ③ получаются путем вывода ω и b соответственно по следующей формуле ①, и пусть они равны 0 для получения замыкания оптимального решения режима ω и b.
(ю*,b*)=argmin(ю,b)(1>m)(f(xi)yi)²(ω*, b*) = arg min(ω, b) ∑(1->m) (f(xi) - yi)²
=argmin(ю,b)(1>m)(yiюxib)²= arg min(ω, b) ∑(1->m) (yi - ωxi - b)² …… ①
-
ðE(ю,b)/ðю=2(ю(1>m)(xi)²(1>m)(yib)xi)ðE(ω, b)/ðω = 2(ω∑(1->m)(xi)² - ∑(1->m)(yi - b)xi) … ②
-
ðE(ю,b)/ðb=2(mb(1>m)(yiюxi))ðE(ω, b)/ðb = 2(mb - ∑(1->m)(yi - ωxi)) …… ③
-
ю=(1>m)yi(xi(1/m)((1>m)xi))/(1>m)xi²(1/m)((1>m)xi)²ω = ∑(1->m)yi(xi - (1/m)(∑(1->m)xi)) / ∑(1->m)xi² - (1/m)(∑(1-> м)xi)²
-
b=(1/m)(1>m)(yiюxi)b = (1/m)∑(1->m)(yi - ωxi)
  • многомерная линейная регрессия: Более общий случай, когда набор данных D начинается с выборок, описанных атрибутами d. Попытка научитьсяf(xi)=юTхi+bf(xi) = ωTхi + b, такое что f(xi)≌yi. Это называется «множественная линейная регрессия».

3.3 Логарифмическая регрессия шансов

3.4 Линейный дискриминантный анализ

3.5 Многоклассное обучение

3.6 Проблема дисбаланса классов