Алгоритм KNN — основные методы классификации и регрессии

алгоритм

Первое предложение текста статьи: Эта статья участвовала в третьем этапе трека «Высокоэффективное обновление» тренировочного лагеря создателей Nuggets.Подробнее см.:Dig Li Project | Идет третий этап тренировочного лагеря создателя, «написание» личного влияния. ​

Алгоритм KNN - базовый метод классификации и регрессии.

1. Что такое

Учитывая набор обучающих данных (test_set)

для нового экземпляра ввода

Найдите k ближайших наборов данных к экземпляру в обучающем наборе (train_set)

К какому типу относится большинство k наборов данных, тогда этот экземпляр является этой категорией. Как показано на рисунке 1

knn.png

Приведу неуместный пример: если вас окружают миллионеры, то у вас, скорее всего, много активов.

2. Выбор и влияние значения k

k值.png

2.1 Значение k слишком мало, что приводит к переоснащению

Как показано на рисунке, когда значение k выбрано равным минимальному значению 1, пятиугольник непосредственно принадлежит черному цвету, но с сенсорной точки зрения пятиугольник должен принадлежать квадрату. Это переоснащение.

2.2 Значение k слишком велико, модель проста, а прогноз неверен

Крайний пример: в качестве значения k выбираем длину всего обучающего множества. Вы обнаружите, что пятиугольники всегда относятся к самой многочисленной категории.

2.3 Нормализация признаков

Сначала рассмотрим такой пример: 5 обучающих выборок:

серийный номер высота масса Классификация
1 179 42 мужчина
2 178 43 мужчина
3 165 36 Женский
4 177 42 мужчина
5 160 35 Женский

Даны тестовые образцы: 6(167, 43)

Выберите k=3 для расчета расстояния:

6-1=145\sqrt{145}

6-2=121\sqrt{121}

6-3=53\sqrt{53}

6-4=101\sqrt{101}

6-5=103\sqrt{103}

Найдено, что ближайшим является 3, 4, 5. Поскольку есть две женщины и один мужчина, мы делаем вывод, что выборка принадлежит женщинам. Но вы обнаружите, что женская стопа 43-го размера намного меньше, чем мужская стопа 43-го размера.

Это связано с тем, что значение высоты больше, чем значение в футах, или размер больше. Таким образом, важность роста гораздо больше, чем размер ноги. Это также является причиной нормализации.

Существует множество способов нормализации данных, таких как нормализация 0-1, нормализация Z-оценки и сигмовидное сжатие. Вот относительно простая нормализация 0-1, формула:

MIN — минимальное значение измененного признака, например, MIN высоты — 160;

MAX — максимальное значение этой функции, например, MAX роста — 179.

xnormalization=xMINMAXMINx_normalization=\frac{x-MIN}{MAX-MIN}

Приведенные выше тестовые данные нормализованы по стандарту 0-1, чтобы стать

| Серийный номер | Рост | Вес | Категория | | :---: | :---: | :---: | :---: | | 1 | 1 | 0,875 | Мужской | | 2 | 0,95 | 1 |Мужской | |3 |0,26 |0,125 |Самский | |4 |0,89 |0,875 |Мужской | |5 |0 |0 |Самский |

Пример высоты:

1=179160179160\frac{179-160}{179-160}=1 2=179160179160\frac{179-160}{179-160}=0.95

масса

1=1=42354335\frac{42-35}{43-35}=0.875

мера расстояния

В основном он включает в себя следующие методы измерения

度量.png