kNN-k модель классификации ближайших соседей
или начните с вопроса
Не обсуждая этот вопрос, давайте сначала подумаем о нем на основе модели:
Мы судим расу, есть четыре категории: черный, белый, желтый и инопланетянин. Когда мы помещаем людей, которых нужно идентифицировать, в черную общину в Гуанчжоу.
Если мы установим область действия в этом сообществе, то мы можем подумать, что существует высокая вероятность того, что он черный, и мы будем классифицировать его как черного
Присоединяйтесь к нам и расширьте охват на весь Китай, тогда мы можем подумать, что он желтый человек.
Эй, если мы распространим масштаб на весь мир, мы будем склонны быть белыми, потому что доля белых людей в мире составляет 43%, желтых — 41%, черных — 16%.
Если мы увеличим его до бесконечной вселенной, согласно модели, мы будем более склонны считать, что он инопланетянин.
Э-э-э, как вы думаете, есть проблема? Ты хочешь сказать, что даже если я сегодня отрублю себе голову, он не может быть инопланетянином.
Итак, давайте сначала рассмотрим этот вопрос и рассмотрим шаги алгоритма этой модели kNN.
Шаги алгоритма модели kNN
Сначала рассмотрим этот шаг
Набор обучающих данных D: он является вектором признаков x, который является координатой, которую мы только что сказали (черное сообщество в Гуанчжоу), а y является категорией данных (черный, белый и желтый).
А то у нас сейчас много образцов, как в черном сообществе
(1栋302,黄),(2栋302,黑),(3栋302,黑),(4栋302,黑)......
Тогда данные в Гуанчжоу еще больше
В это время мы получили новый образец данных(小区公园,y)
Нам нужно принять решение об этом y
(1) x: (районный парк) расстояние d для каждой выборки, которую необходимо собрать из новых данных.
(2) Расположите рассчитанное расстояние в порядке возрастания и возьмите первые K выборок в соответствии с порядком
(3) Подсчитайте значения y выборок K и найдите метку с наибольшей частотой
(4) Завершить это(小区公园,y)
какой у тебя тип
В это время у осторожных людей может возникнуть вторая проблема
Это расстояние d у него проблема
Что с ним не так, все мы знаем, что земля круглая!
В чем проблема с круглым?Подумайте о расстоянии от Гуанчжоу до США на самолете.Если он идет по прямой расстояние от земли, он будет намного короче.
Итак, давайте поговорим о методе расчета расстояния в kNN здесь.
Метод расчета расстояния в кНН
Евклидово расстояние
Это реальная вещь, прямолинейное расстояние копания почвы и взятия земли, обратите внимание, этот (x, y) грохот является его данными характеристиками, соответствующими (x, y, z) координатам земли, где человек расположен , а не просто сказано (особенность, результат)
Манхэттенское расстояние
С евклидовым расстоянием сейчас легко понять, что это реальное расстояние, которое вам нужно преодолеть.
Давайте сначала поговорим о расстоянии, есть и другие расстояния, которые мы не будем рассматривать в первую очередь.
Посмотрите на карту классификации kNN
k на этом рисунке — это количество значений, полученных от ближнего к дальнему. Мы видим, что если k=1, его граница принятия решений очень извилиста.
Давайте представим, что сейчас в черном сообществе у нас есть одно черное домашнее хозяйство, одно желтое домашнее хозяйство, два черных домашних хозяйства и три желтых домашних хозяйства. Трудно ли нам разделить эту границу, и мы можем сделать три-четыре поворота между зданием, но если мы возьмем k=20, то в этом здании чернокожих больше, а в том меньше, так что согласно к этому То, в каком здании находится человек, позволяет лучше судить, черный он или желтый. Границы классификаций проводятся между зданиями.
Следовательно, можно сделать вывод, что чем меньше значение k, тем извилистее граница классификации и тем легче она подвергается помехам, то есть хуже помехоустойчивость.
Однако, если вы станете слишком большим, вы придете к выводу, что этот человек инопланетянин.
由于课程里没有说这个问题,我们就自己百度一下来解决
скопировано онлайн
Если мы выберем небольшое значение k, это эквивалентно использованию обучающих примеров в меньшей окрестности для прогнозирования, ошибка аппроксимации «обучения» будет уменьшена, и только обучающие примеры, которые ближе к входному примеру, будут влиять на результат. результаты предсказания эффект. Но недостатком является то, что увеличится ошибка оценки «обучения», а результат прогнозирования очень чувствителен к соседним точкам экземпляра. Если соседние точки экземпляра окажутся зашумленными, прогноз будет неверным. Другими словами, уменьшение значения k означает, что общая модель становится сложной и склонной к переоснащению.
Если вы не понимаете, что модель с малым значением k сложна, мы могли бы также предположить, что k=N, где N — размер обучающей выборки, тогда независимо от того, какой входной экземпляр, он просто предскажет что он принадлежит к классу с наибольшим количеством обучающих экземпляров, что явно не так. Модель на данный момент очень проста, полностью игнорируя много полезной информации в обучающих примерах.
Если вы выберете большее значение k, это эквивалентно использованию обучающих примеров в большей окрестности для прогнозирования.Преимущество состоит в том, что ошибка оценки «обучения» может быть уменьшена, но недостатком является то, что ошибка аппроксимации «обучения» увеличится. В это время обучающие экземпляры, находящиеся далеко от входного экземпляра, также будут играть роль в результате прогнозирования, делая прогноз неверным. Увеличение значения k означает, что общая модель становится проще. В приложениях значение k обычно принимает небольшое значение, и для выбора оптимального значения k обычно используется метод перекрестной проверки. ——————————————— Заявление об авторских правах: эта статья является оригинальной статьей блоггера CSDN «BlackEyes_SGC», которая соответствует соглашению об авторских правах CC 4.0 BY-SA. Пожалуйста, приложите ссылку на оригинальный источник и это заявление для перепечатки. Оригинальная ссылка:blog.CSDN.net/U011204487/…
перекрестная проверка
Перекрестная проверка, иногда называемая оценкой вращения, представляет собой практический метод статистического разделения выборки данных на более мелкие подмножества, теорию, предложенную Сеймуром Гейссером. В заданной выборке моделирования выньте большинство выборок для построения модели, оставьте небольшую часть выборки для прогнозирования с помощью вновь созданной модели и рассчитайте ошибку прогноза этой небольшой части выборки и запишите сумму их квадраты. Этот процесс продолжается до тех пор, пока все выборки не будут спрогнозированы один и только один раз. Сумма квадратов ошибок предсказания каждой выборки называется PRESS (прогнозируемая сумма квадратов ошибок).
Я этого не понимаю, я тоже этого не понимаю, но я могу заставить его понять
Сначала мы определяем область действия как глобальную, вычисляем ошибку и оцениваем модель.
Затем сужаем область видимости, например, по континенту, например, в Гуанчжоу в качестве области действия выбираем Азию, а в остальных местах выбираем континент, вычисляем ошибку и оцениваем модель
Затем сузьте область, выберите страну, выберите город. В конце мы выбираем k с наименьшей ошибкой, поскольку k используется для этой модели.
Я нашел статью о применении этой перекрестной проверки, и я сохраню ее позже, когда разберусь.
kNN处理iris数据集-使用交叉验证方法确定最优 k 值
blog.CSDN.net/Я говорю свое/Аретти…
Эта проблема решена, продолжаем учиться