Глава Один
1.1 Основная терминология
- набор данных
- пример, образец
- атрибуты, характеристики
- значение атрибута
- атрибутивное пространство, выборочное пространство, входное пространство
- Вектор признаков
- измерение
- обучающие данные, обучающие выборки, обучающая выборка
- Этикетка
- Пример
В зависимости от того, содержат ли обучающие данные информацию о метках, учебные задачи можно условно разделить на две категории:
- «контролируемое обучение»
- «неконтролируемое обучение»
Классификация и регрессия являются представителями первого, а кластеризация - представителем второго.
Обратите внимание, что цель машинного обучения состоит в том, чтобы обученная модель хорошо работала на «новых выборках», а не только на обучающих выборках. Способность изученной модели применять к новым образцам называется способностью «обобщения». Модель с сильной способностью к обобщению хорошо подходит для всего выборочного пространства.
Глава вторая
2.1 Эмпирическая ошибка и переобучение
Частота ошибок:Доля количества ошибочно классифицированных образцов a к общему количеству образцов m E=a/m
точность=1 - частота ошибок
ошибка:Разница между фактическим прогнозируемым результатом учащегося и фактическим результатом выборки
«ошибка обучения» или «эмпирическая ошибка»:Ошибка обучаемого на тренировочном наборе
«Ошибка обобщения»:ошибка на новом образце
Существует множество факторов, которые могут привести к переоснащению, наиболее распространенным из которых является то, что способность к обучению слишком сильна, чтобы выучить менее общие характеристики, содержащиеся в обучающих выборках, в то время как недостаточное приспособление обычно связано с плохой способностью к обучению, вызванной. Недостаточное обучение легче преодолеть, например, расширение ветвей в обучении дерева решений, увеличение количества периодов обучения в обучении нейронной сети и т. Д., В то время как переоснащение вызывает проблемы. Переобучение — ключевое препятствие, с которым сталкивается машинное обучение.
2.2 Метод оценки
Обычно экспериментальные тесты используются для оценки ошибки обобщения учащегося и выбора. Для этого используется «тестовый набор» для проверки способности учащегося различать новые образцы, а «тестовая ошибка» на тестовом наборе используется как приближение к ошибке обобщения.
Обучающий набор S и тестовый набор T генерируются из набора данных путем соответствующей обработки. Несколько распространенных практик описаны ниже.
2.2.1 Метод откладывания
Метод исключения напрямую делит набор данных D на две взаимоисключающие части, одна из которых используется в качестве обучающего набора S, а другая — в качестве тестового набора T.
Обычно соотношение обучающей и тестовой выборок составляет 70%:30%. В то же время есть два соображения для разделения обучающей выборки и тестовой выборки:
- Сохраняйте распределение данных как можно более последовательным. Избегайте дополнительных смещений, вносимых процессом разделения данных, которые влияют на конечный результат. В задачах классификации метод выборки, сохраняющий долю классов, называется «стратифицированной выборкой».
- Несколько случайных разделов используются, чтобы избежать нестабильности одноразового метода удержания.
- Обратите внимание на соотношение деления обучающего набора и тестового набора
2.2.2 Метод перекрестной проверки
Метод перекрестной проверки сначала делит набор данных D на k взаимоисключающих подмножеств одинакового размера, каждый раз объединение k - 1 подмножеств используется в качестве обучающего набора, а оставшееся подмножество используется в качестве тестового набора. Выполните k обучения и тестирования и, наконец, верните среднее значение k результатов теста. Также известен как «к-кратная перекрестная проверка».
оставить одинЭто частный случай k-кратной перекрестной проверки, когда k = m (m — количество выборок). То есть в каждый момент времени в качестве тестового набора используется только один образец. Этот метод является дорогостоящим в вычислительном отношении.
2.2.3 Метод самопомощи
Метод начальной загрузки основан на выборке начальной загрузки (с замещающей выборкой). Каждый раз выборка случайным образом выбирается из D, помещается в D', а затем снова помещается в D. После повторения m раз получается набор данных, содержащий m выборок.
Таким образом, по-прежнему используется m обучающих выборок, но около 1/3 выборок, не входящих в обучающую выборку, используется в качестве тестовой выборки.
преимущество:
- Начальная загрузка полезна, когда набор данных небольшой и сложно эффективно разделить набор для обучения/тестирования.
- Метод начальной загрузки может генерировать несколько различных обучающих наборов из исходного набора данных, что очень полезно для таких методов, как ансамблевое обучение.
недостаток:
- Однако метод начальной загрузки изменяет распределение исходного набора данных, на этот раз внося смещение оценки.
Когда начальный объем данных достаточен,отложитьиперекрестная проверкачаще используется
2.2.4 Настройка окончательной модели
Настройка параметров в основном заключается в выборе одного параметра для каждого параметра.Сфераиизменить шаги выберите соответствующий параметр из разделенных параметров-кандидатов.
2.3 Показатели производительности
Для оценки способности учащегося к обобщению требуется не только эффективный и выполнимый экспериментальный метод оценки, но и стандарт оценки для измерения способности модели к обобщению, которая является мерой эффективности. Метрики производительности отражают требования задачи, поэтому «качество» модели относительно, зависит не только от данных и алгоритмов, но и от того, каковы требования задачи.
Наиболее часто используемой метрикой производительности для задач регрессии является «Среднеквадратическая ошибка».
Далее в основном представлены часто используемые показатели производительности для задач классификации.
2.3.1 Частота ошибок и точность
Частота ошибок и точность часто используются в задачах классификации.Коэффициент ошибок - это отношение количества неправильно классифицированных выборок в тестовой выборке к общему количеству выборок, а точность - это отношение количества правильно классифицированных выборок в тестовой выборке. к общему количеству проб.
Частота ошибок классификации:
Точность:
Если точность набора тестовых данных высока или частота ошибок мала, способность модели к обобщению высока, в противном случае способность к обобщению слаба.
Обобщающая способность модели представлена точностью набора тестовых данных вСоотношение положительных и отрицательных образцов сильно различается.не применяется, когда . Точность используется для представления способности набора тестовых данных к обобщению, а соотношение положительных и отрицательных образцов в наборе тестовых данных должно быть сбалансированным (1:1).
2.3.2 Скорость изоляции, скорость проверки и F1
Например, при поиске информации нас часто волнует, «какой процент извлеченной информации представляет интерес для пользователя» и «какая часть информации, которая интересует пользователя, была получена»; в видеонаблюдении мы ориентируемся на «Какой процент преступников, идентифицированных с помощью распознавания лиц, являются настоящими преступниками» и «Какой процент всех преступников идентифицирован».
Расчеты частоты ошибок являются более общими, а точность и полнота являются показателями производительности, которые больше подходят для таких требований.
ТочностьПроблема, вызывающая озабоченность,Доля положительных образцов в проверенных образцах.
отзыватьПроблема, вызывающая озабоченность,Какой процент положительных образцов отсеивается из проверенных образцов?.
Матрицы путаницы являются основой для расчета точности и отзыва или других методов оценки производительности модели.
Определение матрицы путаницы:
ТП: истинно положительный, то есть и реальный результат, и прогнозируемый результат являются положительными примерами. (Прогноз верен, факт тоже верен)
FP: ложноположительный, то есть реальный результат — отрицательный пример, а прогнозируемый результат — положительный пример. (Прогноз верный, факт ложный)
TN: истинно отрицательный (истинно отрицательный), то есть реальный результат и прогнозируемый результат являются отрицательными примерами. (прогноз ложен, факт верен)
FN: ложноотрицательный, то есть реальный результат — положительный пример, а прогнозируемый результат — отрицательный пример. (Прогноз ложный, факт ложный)
TP+FP+TN+FN=общее количество выборок
Коэффициент точности P (точность) и коэффициент полноты R (отзыв) соответственно определяются как:
Сколько из предсказанных (отсеянных) примеров предсказано, чтобы быть правдой
Количество верных прогнозов, доля истинного числа в реальной ситуации
Таким образом, модель обучения P(Y=1|X) выводит ряд вероятностей положительных выборок в набор тестовых данных и упорядочивает их от больших к меньшим в соответствии с вероятностями, а затем по очереди устанавливает порог. выше порога, это положительная выборка, в противном случае - отрицательная. Каждая настройка порога имеет соответствующую точность и полноту, поэтому, взяв полноту за абсциссу, а точность за ординату, можно получить кривую точность-отзыв и определить кривую «PR».
Оцените производительность модели по кривой P-R:
(1) Если кривая P-R одной модели обучения полностью перекрывает кривую P-R другой модели обучения, производительность первой лучше, чем у второй. То есть, когда отзыв одинаков, чем выше точность, тем лучше производительность обобщения модели, например, модель A лучше, чем модель B.
(2) Если кривые PR двух моделей обучения пересекаются, плюсы и минусы моделей можно оценить с помощью «точки останова» (BEP), которая представляет собой значение «точность = отзыв». Как видно из приведенного рисунка, точка равновесия модели А больше, чем у модели В, то есть модель А лучше модели В.
(3) Поскольку BEP слишком упрощен, чаще используется метрика F1:
Чем больше F1, тем лучше производительность.
(4) Метрика F1 считает, что скорость отзыва и уровень точности имеют одинаковую важность.Если важность скорости отзыва и скорости точности считается разной, например, информация, рекомендуемая пользователю, настолько интересна, насколько возможно пользователю, Тут важнее показатель точности, при поимке беглецов желательно пропустить как можно меньше беглецов, а показатель отзыва в это время важнее.
Для описания относительной важности точности и полноты используется общая форма метрики F1.
в, измеряет относительную важность отзыва к точности,Когда вырождается в стандартный F1;Воспоминание времени важнее;точность важнее.
Много раз у нас есть несколько бинарных матриц путаницы, например, при выполнении нескольких тренировок/тестирований каждый раз, когда мы получаем Матрица путаницы или обучение/тестирование на нескольких наборах данных в надежде оценить «общую картину» алгоритма. производительность; или даже выполнять задачи множественной классификации, каждая комбинация двух категорий соответствует матрице путаницы; … Таким образом, мы хотим всесторонне изучить точность и полноту на n бинарных матрицах путаницы.
2.3.3 ROC и AUC
ROC
В разных задачах мы берем разные точки усечения в соответствии с разными требованиями задачи. Если вы обращаете больше внимания на «точность» (вы хотите проверить точнее), вы должны усекать в верхней части рейтинга (надежнее найти положительные примеры); если вы обращаете больше внимания на «отзыв» (вы хотите для проверки положительных примеров) более полным), должны быть усечены позже по порядку.
Кривая PR измеряет эффективность обобщения модели обучения с точки зрения точности и отзыва, а кривая ROC измеряет эффективность обобщения модели обучения в более общей ситуации. Рекомендуется использовать кривую ROC для измерения обобщения производительность модели.
Идея рисования кривой ROC согласуется с кривой PR.Модель обучения оценивает вероятность того, что тестовые образцы являются положительными образцами в порядке убывания, а затем устанавливает пороги по очереди в соответствии с вероятностью.Тестовые образцы, которые больше порогового значения считаются положительными образцами, а тестовые образцы меньше порогового значения считаются положительными образцами.Для отрицательных образцов каждый раз, когда устанавливается порог, «Истинно положительный уровень» (сокращенно TPR) и «Коэффициент ложных срабатываний» (сокращенно FPR).
Определения TPR и FPR следующие:
Абсцисса кривой ROC - это частота ложных срабатываний, а ордината - истинная скорость. Кривая выглядит следующим образом:
В этой статье объясняются две первые и последние точки кривой ROC:
Пример набора тестовых данных, содержащий N выборок и M n отрицательных выборок варианта осуществления, максимум, если порог установлен для модели обучения для всех тестовых выборок, прогнозируемых отрицательных выборок, матрица путаницы выглядит следующим образом:
TPR = TP / (TP + FN) = 0 / (0 + N) = 0
FPR = FP / (TN + FP) = 0 / (0 + M) = 0
Следовательно, когда порог установлен на максимум, и TPR, и FPR равны 0\.
Если порог меньше значения, которое оценивают все модели, то тестовые образцы являются положительными образцами, все тестовые образцы являются положительными образцами, а матрица путаницы выглядит следующим образом:
TPR = TP / (TP + FN) = N / (N + 0) = 1
FPR = FP / (TN + FP) = M / (M + 0) = 1
Следовательно, когда порог установлен на минимум, и TPR, и FPR равны 1.
AUC (площадь под кривой) — это площадь кривой ROC, и площадь может быть определена методом трапециевидной площади.
Определение значения AUC
Значение AUC представляет собой площадь, охватываемую кривой ROC.Очевидно, что чем больше AUC, тем лучше классификационный эффект классификатора.
AUC = 1 является идеальным классификатором.При использовании этой модели прогнозирования независимо от того, какой порог установлен, можно получить идеальный прогноз. В подавляющем большинстве случаев прогнозирования идеального классификатора не существует.
0,5 AUC = 0,5, то же, что и машинное угадывание (например: потеря медной пластины), модель не имеет прогностической ценности. AUC
Если предположить, что выходом классификатора является socre (уверенность) в том, что образец принадлежит к положительному классу, физический смысл AUC состоит в том, что при взятии любой пары (положительных и отрицательных) образцов вероятность того, что оценка положительного образца больше, чем оценка отрицательного образца. (1) Первый метод: AUC — это площадь под ROC-кривой, тогда мы можем напрямую рассчитать площадь. Площадь представляет собой сумму площадей малых трапеций, а точность расчета связана с точностью порога. (2) Второй метод: в соответствии с физическим значением AUC мы рассчитываем вероятность того, что оценка положительного образца больше, чем оценка отрицательного образца. взятыйM (N — количество положительных образцов, M — количество отрицательных образцов) два кортежа, сравнить баллы и, наконец, получить AUC. Временная сложность O(NМ). (3) Третий метод: аналогично второму методу, непосредственно вычислите вероятность того, что оценка положительного образца больше, чем оценка отрицательного образца. Сначала мы сортируем все выборки в соответствии с оценкой и используем ранг для их представления по очереди, например, выборка с наибольшим количеством очков, rank=n (n=N+M), за которой следует n-1. Тогда для выборки с наибольшим рангом (rank_max) в положительной выборке имеется M-1 других положительных выборок с меньшим баллом, чем у него, затем имеется (rank_max-1)-(M-1) отрицательных выборок меньше его оценка. Второй - (rank_second-1)-(M-2). Наконец, мы получаем, что вероятность того, что положительная выборка больше, чем отрицательная, равна: Если при оценке эффективности модели обучения учитываются факторы различных затрат на потери, вызванные различными типами ошибок классификации, это называется методом оценки частоты ошибок с учетом затрат. Чувствительная к стоимости частота ошибок модели: II(.) — индикаторная функция, 1, если * верно, 0 в противном случае Стоимость убытков от неправильной классификации не одинакова, то есть неравна стоимость. Как показано на рисунке ниже, где costij представляет стоимость прогнозирования i-й выборки как j-й выборки. Чувствительная к стоимости частота ошибок модели: II(* ) является индикаторной функцией, если1 если правда, 0 иначе Это определение является обобщением стоимости убытков модели расчета.Если стоимость убытков от неправильной классификации одинакова, пусть, что согласуется с предыдущим выражением частоты ошибок, зависящим от стоимости. Независимо от используемой функции стоимости потерь построение оптимизации модели эквивалентно минимизации частоты ошибок, чувствительной к стоимости. Кривая ROC отражает способность модели обучения к обобщению при условии равной стоимости (потеря ошибки классификации одинакова), а «кривая затрат» отражает ожидаемую общую стоимость модели обучения при условии неравной стоимости. Чем меньше ожидаемая общая стоимость, тем сильнее обобщающая способность модели. Абсцисса кривой стоимости представляет собой нормализованную положительную вероятность стоимости выборки, положительная вероятность равна p, а данная положительная вероятность представляет собой априорную вероятность в диапазоне от 0 до 1, а вертикальная ось представляет собой нормализованную стоимость потерь. Кривая затрат изучает взаимосвязь между априорной вероятностью положительной выборки и стоимостью потерь. Нормализованная положительная вероятностная стоимость: Кривая затрат выглядит следующим образом: Среди них серая заштрихованная часть представляет собой ожидаемую общую стоимость модели.Чем меньше ожидаемая общая стоимость, тем лучше эффективность обобщения модели, в противном случае - тем хуже эффективность обобщения модели. Значение ожидаемой общей стоимости: минимальная стоимость потерь при обучении модели при положительной априорной вероятности и минимальная стоимость потерь при всех положительных априорных примерах суммируются. Ссылка на ссылку:Физический смысл значения AUC
Расчет значения AUC
2.3.4 Частота ошибок и кривая стоимости, зависящая от стоимости
частота ошибок, чувствительная к стоимости
Предположим, что обучающий набор данных D содержит набор положительных примеров D+ и набор отрицательных примеров D-. Если стоимость убытков от неправильной классификации одинакова, то это равная стоимость. Матрица затрат выглядит следующим образом:
Матрица затрат выглядит следующим образом:кривая затрат