Первое предложение текста статьи: Эта статья участвовала в третьем этапе трека «Высокоэффективное обновление» тренировочного лагеря создателей Nuggets.Подробнее см.:Dig Li Project | Идет третий этап тренировочного лагеря создателя, «написание» личного влияния.
Алгоритм KNN - базовый метод классификации и регрессии.
1. Что такое
Учитывая набор обучающих данных (test_set)
для нового экземпляра ввода
Найдите k ближайших наборов данных к экземпляру в обучающем наборе (train_set)
К какому типу относится большинство k наборов данных, тогда этот экземпляр является этой категорией. Как показано на рисунке 1
Приведу неуместный пример: если вас окружают миллионеры, то у вас, скорее всего, много активов.
2. Выбор и влияние значения k
2.1 Значение k слишком мало, что приводит к переоснащению
Как показано на рисунке, когда значение k выбрано равным минимальному значению 1, пятиугольник непосредственно принадлежит черному цвету, но с сенсорной точки зрения пятиугольник должен принадлежать квадрату. Это переоснащение.
2.2 Значение k слишком велико, модель проста, а прогноз неверен
Крайний пример: в качестве значения k выбираем длину всего обучающего множества. Вы обнаружите, что пятиугольники всегда относятся к самой многочисленной категории.
2.3 Нормализация признаков
Сначала рассмотрим такой пример: 5 обучающих выборок:
серийный номер | высота | масса | Классификация |
---|---|---|---|
1 | 179 | 42 | мужчина |
2 | 178 | 43 | мужчина |
3 | 165 | 36 | Женский |
4 | 177 | 42 | мужчина |
5 | 160 | 35 | Женский |
Даны тестовые образцы: 6(167, 43)
Выберите k=3 для расчета расстояния:
6-1=
6-2=
6-3=
6-4=
6-5=
Найдено, что ближайшим является 3, 4, 5. Поскольку есть две женщины и один мужчина, мы делаем вывод, что выборка принадлежит женщинам. Но вы обнаружите, что женская стопа 43-го размера намного меньше, чем мужская стопа 43-го размера.
Это связано с тем, что значение высоты больше, чем значение в футах, или размер больше. Таким образом, важность роста гораздо больше, чем размер ноги. Это также является причиной нормализации.
Существует множество способов нормализации данных, таких как нормализация 0-1, нормализация Z-оценки и сигмовидное сжатие. Вот относительно простая нормализация 0-1, формула:
MIN — минимальное значение измененного признака, например, MIN высоты — 160;
MAX — максимальное значение этой функции, например, MAX роста — 179.
Приведенные выше тестовые данные нормализованы по стандарту 0-1, чтобы стать
| Серийный номер | Рост | Вес | Категория | | :---: | :---: | :---: | :---: | | 1 | 1 | 0,875 | Мужской | | 2 | 0,95 | 1 |Мужской | |3 |0,26 |0,125 |Самский | |4 |0,89 |0,875 |Мужской | |5 |0 |0 |Самский |
Пример высоты:
1==1 2==0.95
масса
1=1==0.875
мера расстояния
В основном он включает в себя следующие методы измерения