Однажды, когда наша компания проводила совещание, руководитель группы машинного обучения, отчитываясь о производительности, сказал, что у лучшей модели, которую мы недавно сделали, KS достигла 0,45 (не беспокойтесь об этой цифре, просто напишите единицу). Некий одноклассник, который занимался бизнесом, с растерянным видом спросил, что означает этот КС? Это хорошо? Все еще не хорошо?
В то время ответить на этот вопрос не удалось, и собрание превратилось в небольшой беспорядок. Проблема, с которой сталкивается каждый, заключается в том, что трудно использовать «человеческий язык» или «мандарин», чтобы четко объяснить, что такое КС. Маленькая L не может внятно объяснить, старая B включена, еще не может объяснить, появляется старая H, но в итоге это еще не до конца удовлетворило аудиторию. последний смех закончился: «Вернитесь к моему Baidu/Knowledge. Это почти».
Сяошэн смелый и хочет попытаться объяснить, что такое КС. Перейдем непосредственно к галантерее.
Цель моделирования машинного обучения нашей компании — построить модель «бинарной классификации», короче говоря, разделить группу людей на «хороших людей» и «плохих людей». Конечным результатом моделирования является то, что мы используем модель, чтобы дать каждому человеку оценку, и чем ниже оценка, тем хуже человеку, и наоборот, тем лучше. Тогда, согласно счету, мы можем расставить людей аккуратно.
Глядя на рисунок выше, модель генерирует 10 оценок, от низких до высоких, и распределяет 100 человек по 10 столбцам от плохих к хорошим. Такое расположение — предсказание модели, она не знает, какова реальная ситуация.
Мы используем цвета для представления реальных ситуаций. На картинке красный цвет представляет плохих парней, а зеленый — хороших. Если наша модель создана Богом и абсолютно правильна, то мы увидим явление, когда 5 колонок слева все красные, а 5 колонок справа зеленые.
Однако, поскольку модель сделана людьми, неизбежно неправильное предположение, и произойдет описанное выше явление.Как правило, больше плохих людей слева и больше хороших людей справа, но есть и неправильные предположения. Число в каждой маленькой ячейке предназначено для удобства читателя при подсчете количества. Очевидно, среди этих 100 человек ровно 50 хороших и 50 плохих людей.
Затем мне нужен робокоп, чтобы поймать плохих парней. Однако этот робот-полицейский может быть арестован только в соответствии со счетом, предсказанным моделью.Мы устанавливаем значение счета, и робот-полицейский будет арестовывать всех, кто меньше или равен этому счету.
Теперь нам нужно составить таблицу, чтобы рассчитать соотношение пойманных плохих парней ко всем плохим парням (правильный коэффициент поимки) и отношение пойманных хороших парней ко всем хорошим парням (ложный коэффициент поимки) по каждому показателю.
См. рисунок выше. Допустим, мы поставили оценку 0, и никто не будет пойман. Точно так же установите его на 10 баллов, тогда будут пойманы все плохие парни (100%) и все хорошие парни (100%).
В таблице на рисунке выше каждый столбец представляет, когда установлен этот показатель, вероятность того, что пойманные хорошие парни составляют всех хороших парней (ложный коэффициент поимки), и вероятность того, что пойманные плохие парни составляют всех плохих парней. ребята (правильный улов). Третий ряд чисел представляет собой разницу между двумя вероятностями (вероятность плохого парня минус вероятность хорошего парня).
Если мы визуализируем приведенную выше таблицу и нарисуем ее в виде линейного графика, она будет выглядеть так, как показано выше.
Серая линия выше представляет общее количество плохих парней, пойманных по каждому счету, а красная линия ниже представляет общее количество хороших парней, пойманных по ошибке. Синяя линия представляет собой изменение разницы.
Потом пришел ключ. Вершина синей линии. Это наш главный герой КС-кун. На данный момент мы в основном понимаем, что такое KS Вы понимаете? ?
========
Я думаю, ваше лицо выглядит так:
Эй, братан? И что?
Полезен ли КС? А арестовывать людей?
В порядке……
Проще говоря, КС такая вещь, и она действительно бесполезна.Что касается того, как арестовывать людей, то КС вам трудно помочь.
Если вы очень добры, вы должны установить оценку ареста роботов-полицейских на 1. Хорошего человека не поймают по ошибке, и он скорее оставит безнаказанными некоторых плохих людей. Если вы очень жестоки, убиваете по ошибке тысячу и не пускаете одного, вы ставите 10 очков и арестовываете всех.
Да да, конечно я знаю, что КС составляет 60%, и это происходит, когда он установлен на 5, ну и что? ? ? Не может быть. Вы правильно прочитали, никак. Какая конкретная настройка? Еще зависит от настроения.
======
Вернуться к серьезному лицу.
КС количественно оценивает модель, и позиция, в которой разница между совокупным хорошим и совокупным плохим является наибольшей, отражает различительную способность модели с малого аспекта. Почти бесполезен. Очевидно, что в прогнозируемой целевой группе доля действительно хороших и плохих клиентов будет серьезно влиять на ценность KS.
В крайнем случае на графике выше KS достигает 82%, когда оценка установлена в 1 балл. Вы должны быть в состоянии понять это, верно? (КС не чем выше, тем лучше. Когда мы говорим, что чем выше КС, тем лучше, должна быть какая-то предпосылка)
И, как и дилемма ареста, К.С. предлагает мало реальной помощи в принятии решений. Просто ссылка. Очевидно, что когда мы на самом деле арестовываем людей, мы не обязательно можем ставить баллы, которые могут получить КС (например, 5 баллов в первом примере) Нужно учитывать, достаточно ли коек в тюрьме, верно?
Три фотографии, которые были сказаны, на самом деле были использованы пятью. Просто притворись, что я солгал тебе, в чем дело?
Хи-хи, надеюсь, вы узнали, что такое KS.
Заканчивать.
PS В учебнике говорится, что для модели управления рисками эмпирически статистика KS должна составлять не менее 40%, чтобы отражать хорошую способность к различению. (хрестоматийные знания, знаете ли, судите сами)
Опять же ПС.КС - это статистика и это аббревиатура от фамилий (Колмогоров-Смирнов) двух воюющих народов (русских).
В конце концов, обывателю достаточно знать это.
настоящий.
Сделанный.