Карточка A, карточка B и карточка C в оценочной карточке относятся к
Перед кредитом: подайте заявку на получение оценочной карты (оценочной карты приложения), называемой картой A.
Предоставление взаймы: карта оценки поведения, называемая картой B.
После кредита: оценочная карта сбора, называемая картой C.
WOE (масса доказательств)
Вес доказательств
Это кодирование независимой переменной, которое часто используется при преобразовании признаков для измерения корреляции между независимой переменной и зависимой переменной.
B представляет рискованных клиентов, G представляет обычных клиентов
Для WOE определенной переменной и группы измеряется разница между долей хороших и плохих клиентов в этой группе и долей хороших и плохих выборок в общей выборке.
Мышление: для задачи бинарной классификации со 100 записями одна независимая переменная имеет только два значения, значение 1, значение 2. Как вычислить горе 1, горе 2, соответствующие значению 1, значению 2?
value1 имеет 50 записей, из которых 40 соответствуют метке 1, а остальные 10 соответствуют метке 0.
value2 имеет 50 записей, из которых 25 соответствуют метке 1, а остальные 25 соответствуют метке 0.
Мышление: Чем больше разница в WOE, тем больше способность различать риски = чем больше разница, тем более очевидно различие между рисками.
Расчет WOE:
Для непрерывных переменных разделите на N интервалов
Для категориальных переменных оставьте категориальную группу неизменной
Рассчитать процент событий и несобытий в каждой корзине или группе
Роль ВОЭ:
Может преобразовывать непрерывные переменные в категориальные переменные горя
Подобные корзины или группы могут быть объединены (горе похожи)
Расчет горя требует внимания:
В каждом бине или группе записей должно быть не слишком мало, не менее 5% записей.
Не используйте слишком много бинов или групп, это приведет к нестабильности
Для специальных столбцов, в которых все значения 0 или 1 в ячейке или группе, используйте модифицированный вариант woeНе допускайте, чтобы знаменатель был равен 0
IV (информационная ценность)
горе только считает возможность различать риски, но не считает сколько пользователей можно выделить
IV измеряет способность переменной различать риски, то есть измеряет прогностическую способность каждой переменной относительно y и используется для скрининга переменных.
Расчет IV можно рассматривать как взвешенную сумму WOE.
IV – показатель, тесно связанный с WOE.В практике применения критерии оценки можно обозначить следующим образом:
Этапы разработки модели системы показателей:
Шаг 1, сбор данных, включая сбор данных о существующих и потенциальных клиентах.
Существующие клиенты, клиенты, начавшие финансовый бизнес, включая индивидуальных клиентов и институциональных клиентов;
потенциальные клиенты, клиенты, которые будут вести бизнес
Шаг 2, EDA, получить общую ситуацию с образцом и визуализировать гистограмму и коробчатую диаграмму.
Шаг 3, предварительная обработка данных, включая очистку данных, обработку пропущенных значений, обработку выбросов
Шаг 4, скрининг переменных, с помощью статистических методов отсеивайте индикаторы, которые оказывают наиболее значительное влияние на статус по умолчанию. Существуют в основном методы одномерного выбора признаков и методы, основанные на машинном обучении.
Шаг 5, разработка модели, включая сегментацию переменных, преобразование переменных WOE (масса доказательств) и оценку логистической регрессии.
Шаг 6, оценка модели, оценка различительной способности, прогнозирующей способности и стабильности модели, а также формирование отчета об оценке модели, чтобы сделать вывод о том, можно ли использовать модель.
Шаг 7, создайте оценочную карту (кредитный рейтинг) и преобразуйте логистическую модель в форму стандартной оценки в соответствии с коэффициентами логистической регрессии и WOE для определения кредитного рейтинга.
Шаг 8, установите систему подсчета очков (макет онлайн) и установите автоматическую систему подсчета кредитов на основе сгенерированной оценочной карты.
переменный биннинг
Биннинг переменных предназначен для дискретизации непрерывных переменных, а признаки после бининга обладают высокой устойчивостью к аномальным данным.
Например, возраст> 30 равен 1, в противном случае он равен 0. Если признаки не дискретизированы, аномальные данные Ду Ю «возраст 300 лет» вызовут большие помехи в модели.
Логистическая регрессия — это обобщенная линейная модель с ограниченной выразительной способностью.После дискретизации одномерной переменной в N это эквивалентно введению нелинейности в модель, что может улучшить выразительную способность модели.
После дискретизации можно выполнить кроссовер признаков, заменив переменные M+N на переменные M*N, дополнительно введя нелинейность и улучшив способность выражения.
Отсутствующие могут быть вынесены в модель как отдельный класс
Преобразуйте все переменные в одинаковую шкалу
Метод обработки отсутствующих значений
Для поля X отсутствуют значения:
Непосредственно удалять образцы с отсутствующими значениями
Если отсутствующие образцы составляют большую часть общего количества, вы можете напрямую отбросить поле X (если X добавить как функцию, шум будет очень большим)
Завершение по простым правилам:
Удалить: удалить записи с отсутствующими данными;
среднее значение: использовать среднее значение текущего столбца;
Высокая частота: используйте данные, которые чаще всего встречаются в текущем столбце.
Завершение с предсказанием:
Вменить пропущенные значения на основе сходства между образцами
Заполните пропущенные значения на основе корреляций между переменными
Задание: используйте случайный лес, чтобы выполнить предсказание выживания пассажира «Посадка», «Эпоха в Титанике».
1) Прогнозировать недостающие значения в полях Embarked по полям Survived, Pclass, Sex, SibSp, Parch, Fare
2) Прогнозировать недостающие значения в поле Age через поля Survived, Pclass, Sex, SibSp, Parch, Fare, Embarked