регрессионный анализ
• Изучите взаимосвязь между зависимой переменной (целью) и независимыми переменными (признаками).
• Помогите специалистам по данным лучше выбрать лучший набор переменных для построения прогностических моделей.
• Сценарии использования: прогноз цен, прогноз количества
Пример: В 1889 г. Далтон и его друг К. Пирсон собрали записи о росте, длине рук и ног тысяч семей, пытаясь найти взаимосвязь между ростом сыновей и отцов.
• Линейная регрессия / логистическая регрессия
• полиномиальная регрессионная полиномиальная регрессионная полиномиал представляет собой обычную конструкцию конструкции
• Регрессия хребта
• Регрессия Лассо
• Эластичная регрессия ElasticNet Regression Гибридный метод регрессии Риджа и Лассо с использованием регуляризации L2 и L1.
• Оценка методом наименьших квадратов предназначена для минимизации остаточной суммы квадратов (RSS).
•
• lasso для минимизации RSS, добавляя штрафной член L1 (в качестве ограничения)
•
• Регрессия хребта добавляет штраф L2 для минимизации RSS.
•
слияние моделей
1. Взвешенное слияние в задачах регрессии
Назначьте разные веса в соответствии с итоговой эффективностью прогнозирования каждой модели. Например, моделям с высокой точностью присваиваются более высокие веса, а моделям с низкой точностью — меньшие веса.
2 Голосование в задачах классификации
Стратегия голосования, то есть выбирать класс с большинством всех результатов моделировки (меньшинство подчиняется большинству)
Мысль: допустим, у нас есть три независимые модели, каждая с точностью 70%, и голосование осуществляется по принципу меньшинство-подчинение-большинство, тогда конечная степень точности =?
0.7*0.7*0.7+0.7*0.7*0.3*3=0.343+0.441=0.784
Классификатор голосования в sklearn
Реализован метод голосования, разделенный на жесткий и мягкий
жесткое, жесткое голосование, меньшинство подчиняется большинству (классификатор)
мягкое, мягкое голосование, голосование со значением (взвешенное)
Прогноз цен на подержанные автомобили
Что нужно сделать: использование нейронной сети для прогнозирования цен
• Дизайн NN
3 слоя FC, количество нейронов в каждом слое 250, а функция активации использует ReLU
Последний слой FC, результат прогнозирования вывода
• Обработка выбросов для мощности двигателя > 600
Тест на интерпретируемость признаков модели
• Используйте XGBoost/LightGBM, чтобы делать прогнозы и ранжировать важные функции.
• В XGBoost существует три типа расчета важности функций:
вес, количество раз, когда функция появляется в усиленном дереве, то есть количество раз, когда функция используется в качестве разделяемого узла во всех деревьях.
прирост во всех деревьях — средний информационный прирост признака после разделения.
покрытие, относительное количество наблюдений, связанных с функцией
Например, имеется 100 записей (наблюдение), 4 признака (признак) и 3 дерева (дерево), при условии, что признак 1 используется для определения листовых узлов 10, 5 и 2 записей в дереве1, дереве2 и дереве3.
coverage = (10 + 5 + 2) / 100 = 17%
Данные поступают из записей транзакций с подержанными автомобилями на торговой платформе.
Field
Description
SaleID
Идентификатор транзакции, уникальный код
name
Автомобильная торговая марка, десенсибилизированная
regDate
Дата регистрации автомобиля, например 20160101, 1 января 2016 г.
model
Код модели, десенсибилизированный
brand
марка автомобиля, десенсибилизированный
bodyType
Тип кузова: Лимузин: 0, Мини: 1, Фургон: 2, Автобус: 3, Кабриолет: 4, Купе: 5, Коммерческий: 6, Миксер: 7
fuelType
Тип топлива: Бензин: 0, Дизель: 1, Сжиженный нефтяной газ: 2, Природный газ: 3, Гибрид: 4, Другое: 5, Электрический: 6
gearbox
Трансмиссия: Ручная: 0, Автоматическая: 1
power
Мощность двигателя: диапазон [0, 600]
kilometer
Машина проехала километры, единица десять тысяч километров
notRepairedDamage
Автомобиль имеет неустраненные повреждения: да: 0, нет: 1
regionCode
код города, десенсибилизированный
seller
Продавец: Физическое лицо: 0, Не физическое лицо: 1
offerType
Тип предложения: Предложение: 0, Запрос: 1
creatDate
Время, когда машина в сети, то есть время, когда машина начинает продаваться
price
Цена сделки с подержанным автомобилем (прогноз)
Особенности серии v
Анонимные функции, в том числе 15 анонимных функций, включая v0-14
ToDo: дать вам все атрибуты автомобиля (кроме поля цены), предсказать его цену
Используйте нейронные сети, чтобы делать прогнозы
Стандарт оценки MAE (средняя абсолютная ошибка):
MAE — это потери L1, чем меньше MAE, тем точнее модель.
Отправьте результат в соответствии с форматом в sample_submit.csv
• Шаг 1, загрузка данных
Необработанные данные разделены пробелами
• Шаг 2, исследование данных
Общие данные
Просмотр отсутствующих значений, визуализация отсутствующих значений
Посмотреть раздачу лейбла (цена лейбла в этом проекте)
Шаг 3, выбор функции
Шаг 4, обучение модели
Использование XGBoost, настройки гиперпараметров
Шаг 5, предсказание модели