Прогноз цен сделок с подержанными автомобилями на WEEK9

искусственный интеллект

регрессионный анализ

• Изучите взаимосвязь между зависимой переменной (целью) и независимыми переменными (признаками).

• Помогите специалистам по данным лучше выбрать лучший набор переменных для построения прогностических моделей.

• Сценарии использования: прогноз цен, прогноз количества

Пример: В 1889 г. Далтон и его друг К. Пирсон собрали записи о росте, длине рук и ног тысяч семей, пытаясь найти взаимосвязь между ростом сыновей и отцов.

• Линейная регрессия / логистическая регрессия

• полиномиальная регрессионная полиномиальная регрессионная полиномиал представляет собой обычную конструкцию конструкции

• Регрессия хребта

• Регрессия Лассо

• Эластичная регрессия ElasticNet Regression Гибридный метод регрессии Риджа и Лассо с использованием регуляризации L2 и L1.

• Оценка методом наименьших квадратов предназначена для минимизации остаточной суммы квадратов (RSS).

• lasso для минимизации RSS, добавляя штрафной член L1 (в качестве ограничения)

• Регрессия хребта добавляет штраф L2 для минимизации RSS.

 

слияние моделей

1. Взвешенное слияние в задачах регрессии

Назначьте разные веса в соответствии с итоговой эффективностью прогнозирования каждой модели. Например, моделям с высокой точностью присваиваются более высокие веса, а моделям с низкой точностью — меньшие веса.

2 Голосование в задачах классификации

Стратегия голосования, то есть выбирать класс с большинством всех результатов моделировки (меньшинство подчиняется большинству)

Мысль: допустим, у нас есть три независимые модели, каждая с точностью 70%, и голосование осуществляется по принципу меньшинство-подчинение-большинство, тогда конечная степень точности =?

0.7*0.7*0.7+0.7*0.7*0.3*3=0.343+0.441=0.784

Классификатор голосования в sklearn

Реализован метод голосования, разделенный на жесткий и мягкий

жесткое, жесткое голосование, меньшинство подчиняется большинству (классификатор)

мягкое, мягкое голосование, голосование со значением (взвешенное)

Прогноз цен на подержанные автомобили

Что нужно сделать: использование нейронной сети для прогнозирования цен

• Дизайн NN

3 слоя FC, количество нейронов в каждом слое 250, а функция активации использует ReLU

Последний слой FC, результат прогнозирования вывода

• Обработка выбросов для мощности двигателя > 600

Тест на интерпретируемость признаков модели

• Используйте XGBoost/LightGBM, чтобы делать прогнозы и ранжировать важные функции.

• В XGBoost существует три типа расчета важности функций:

вес, количество раз, когда функция появляется в усиленном дереве, то есть количество раз, когда функция используется в качестве разделяемого узла во всех деревьях.

прирост во всех деревьях — средний информационный прирост признака после разделения.

покрытие, относительное количество наблюдений, связанных с функцией

Например, имеется 100 записей (наблюдение), 4 признака (признак) и 3 дерева (дерево), при условии, что признак 1 используется для определения листовых узлов 10, 5 и 2 записей в дереве1, дереве2 и дереве3.

coverage = (10 + 5 + 2) / 100 = 17%

Данные поступают из записей транзакций с подержанными автомобилями на торговой платформе.

Field

Description

SaleID

Идентификатор транзакции, уникальный код

name

Автомобильная торговая марка, десенсибилизированная

regDate

Дата регистрации автомобиля, например 20160101, 1 января 2016 г.

model

Код модели, десенсибилизированный

brand

марка автомобиля, десенсибилизированный

bodyType

Тип кузова: Лимузин: 0, Мини: 1, Фургон: 2, Автобус: 3, Кабриолет: 4, Купе: 5, Коммерческий: 6, Миксер: 7

fuelType

Тип топлива: Бензин: 0, Дизель: 1, Сжиженный нефтяной газ: 2, Природный газ: 3, Гибрид: 4, Другое: 5, Электрический: 6

gearbox

Трансмиссия: Ручная: 0, Автоматическая: 1

power

Мощность двигателя: диапазон [0, 600]

kilometer

Машина проехала километры, единица десять тысяч километров

notRepairedDamage

Автомобиль имеет неустраненные повреждения: да: 0, нет: 1

regionCode

код города, десенсибилизированный

seller

Продавец: Физическое лицо: 0, Не физическое лицо: 1

offerType

Тип предложения: Предложение: 0, Запрос: 1

creatDate

Время, когда машина в сети, то есть время, когда машина начинает продаваться

price

Цена сделки с подержанным автомобилем (прогноз)

Особенности серии v

Анонимные функции, в том числе 15 анонимных функций, включая v0-14

ToDo: дать вам все атрибуты автомобиля (кроме поля цены), предсказать его цену

Используйте нейронные сети, чтобы делать прогнозы

Стандарт оценки MAE (средняя абсолютная ошибка):

MAE — это потери L1, чем меньше MAE, тем точнее модель.

Отправьте результат в соответствии с форматом в sample_submit.csv

• Шаг 1, загрузка данных

Необработанные данные разделены пробелами

• Шаг 2, исследование данных

Общие данные

Просмотр отсутствующих значений, визуализация отсутствующих значений

Посмотреть раздачу лейбла (цена лейбла в этом проекте)

Шаг 3, выбор функции

Шаг 4, обучение модели

Использование XGBoost, настройки гиперпараметров

Шаг 5, предсказание модели