Создайте модель линейной регрессии с помощью Excel

машинное обучение

Автор|РАМ ДЕВАНИ Компилировать|ВКонтакте Источник | Аналитика Видья

Обзор

  • Вы можете выполнить моделирование в Excel всего за несколько шагов

  • Ниже приведено руководство о том, как построить модель линейной регрессии в Excel и как интерпретировать результаты.

вводить

Может ли Excel действительно создавать прогностические модели?

Обычно это моя первая реакция, когда я поднимаю эту тему. Последовал подозрительный взгляд, когда я продемонстрировал, как использовать гибкость Excel для создания прогностических моделей для наших проектов по науке о данных и аналитике.

Позвольте задать вам вопрос: если магазины вокруг вас начнут собирать данные о клиентах, смогут ли они использовать стратегии, основанные на данных, для продажи своих товаров? Могут ли они спрогнозировать собственные продажи или оценить количество продуктов, которые они могут продать?

Теперь вам должно быть интересно, как именно они собираются построить сложную статистическую модель, чтобы предсказать эти вещи? Научиться анализировать или нанять аналитиков может оказаться за пределами их возможностей. Хорошая новость в том, что им это не нужно.

Microsoft Excel дает нам возможность создавать прогностические модели без написания сложного кода.

Мы можем легко построить простую модель линейной регрессии в MS Excel, которая поможет нам выполнить анализ за несколько простых шагов. Нам не нужно владеть Excel или статистикой, чтобы делать прогнозное моделирование!

В этом посте я объясню, как построить модель линейной регрессии в Excel и как проанализировать результаты, чтобы вы могли стать аналитиком!

содержание

  1. Что такое линейная регрессия?

  2. Получите важнейший инструментарий Add Analysis Toolkit в Excel

  3. Реализация линейной регрессии в Excel

  4. Интерпретация результатов нашей прогностической модели

  5. Как мы можем улучшить модель?

  6. Делайте прогнозы с помощью Excel!

Что такое линейная регрессия?

Линейная регрессия — это первая техника машинного обучения, которую изучают большинство из нас. Это также наиболее часто используемый метод обучения с учителем в отрасли.

Но что такое линейная регрессия?

Это линейный метод статистического моделирования взаимосвязи между зависимой переменной (предсказываемой переменной) и независимой переменной (предсказываемым фактором). Линейная регрессия дает такое уравнение:

Здесь Y — зависимая переменная, X — независимая переменная, C — коэффициент. Коэффициенты — это в основном веса, присвоенные функциям в зависимости от их важности.

Наиболее часто используемый метод регрессии — OLS (Обычные наименьшие квадраты). Его цель — уменьшить сумму квадратов, чтобы получить наилучшую линию, подобную этой:

Если вы хотите узнать больше о линейной регрессии, см. следующие ресурсы:

Основы линейной регрессии:курсы.аналитика vi.com/courses/fun…

Диагностический график в модели линейной регрессии:Woohoo.analytics vi.com/blog/2013/1…

Руководство для начинающих по линейной регрессии в Excel:Woohoo.аналитика vi.com/blog/2017/0…

Надстройка Excel Get Analysis Toolkit

Чтобы выполнить регрессионный анализ в Excel, сначала необходимо включить надстройку Analysis Toolkit для Excel. Analysis Toolkit в Excel — это надстройка, которая предоставляет инструменты анализа данных для статистического и инженерного анализа.

Чтобы добавить его в книгу, выполните следующие действия.

Шаг 1 – Параметры Excel

Перейдите в Файл -> Параметры:

Шаг 2 – Набор инструментов для анализа позиционирования

Перейдите в Надстройки на левой панели -> Управление надстройками Excel -> Перейти к:

Шаг 3 — Добавьте инструментарий анализа

Выберите Analysis Toolkit и нажмите OK:

Вы успешно добавили инструментарий анализа в Excel! Вы можете проверить это, перейдя на панель данных на ленте.

Давайте начнем строить нашу прогностическую модель с помощью Excel!

Реализация линейной регрессии в Excel

До сих пор многое было теоретическим. Теперь давайте погрузимся в Excel и проведем линейный регрессионный анализ!

Вот постановка задачи, с которой мы будем иметь дело:

WindenВ городе есть компания, которая продает обувь. Компания хочет предсказать продажи каждого клиента, принимая во внимание следующие факторы: доход клиента, расстояние от дома и то, как часто клиенты бегают каждую неделю.

Шаг 1 – Выберите регрессию

Перейдите в Данные -> Анализ данных:

Перейдите к анализу данных в наборе инструментов данных, выберите «Регрессия» и нажмите «ОК»:

Шаг 2 – Выберите

На этом этапе мы выберем некоторые параметры, необходимые для анализа, например:

  • input y range – диапазон независимых факторов

  • input x range - диапазон коррелированных факторов

  • output_range — диапазон ячеек для отображения результатов в

Другие параметры являются необязательными, и вы можете выбрать их в соответствии со своей конкретной целью.

Нажмите OK, и у нас наконец есть двухэтапный регрессионный анализ в Excel! Это просто! Теперь мы увидим результат регрессионного анализа в Excel.

Анализ результатов прогнозных моделей с помощью Excel

Реализация модели линейной регрессии — самая простая часть. Теперь наступает сложная часть нашего анализа — интерпретация результатов прогностической модели в Excel.

Подводя итог, у нас есть три типа вывода, которые мы рассмотрим один за другим:

  • Таблица статистики регрессии

  • Таблица дисперсионного анализа

  • Таблица коэффициентов регрессии

  • Остаточная таблица

Таблица статистики регрессии

Таблица статистики регрессии сообщает нам, как линия наилучшего соответствия определяет линейную связь между независимыми и зависимыми переменными. Двумя наиболее важными показателями являются R-квадрат и скорректированный R-квадрат.

Статистика R-квадрата является индикатором качества соответствия, она говорит нам, насколько дисперсия объясняется линией наилучшего соответствия. R-квадрат находится в диапазоне от 0 до 1.

В нашем случае значение R-квадрата составило 0,953, что означает, что наша строка объясняет 95% дисперсии — хороший знак.

Но есть одна загвоздка: по мере того, как мы продолжаем добавлять переменные, наше значение R-квадрата будет продолжать увеличиваться, даже если переменные могут не иметь никакого эффекта. Корректировка R-квадрата решает эту проблему и является более надежной мерой.

Таблица дисперсионного анализа

ANOVA означает дисперсионный анализ. Эта таблица разбивает сумму квадратов на ее компоненты, чтобы предоставить подробную информацию о вариациях в рамках модели.

Он включает очень важную метрику, значимость F (или P-значение), которая говорит нам, является ли ваша модель статистически значимой.

Короче говоря, это означает, что наши результаты могут быть вызваны не случайностью, а основной причиной.

Наиболее часто используемый порог для p-значений составляет 0,05. Если мы получим значения ниже этого, все в порядке. В противном случае нам нужно выбрать другой набор независимых переменных.

В нашем случае наше значение значительно ниже порога 0,05. Отлично, теперь мы можем двигаться вперед!

Таблица коэффициентов регрессии

Таблица коэффициентов разбивает компоненты линии регрессии в виде коэффициентов. Мы можем многому у него научиться.

заWindenДля обувной компании кажется, что каждая дополнительная единица дохода увеличивает продажи на 0,08, а дополнительная единица расстояния до магазина увеличивает продажи на 508!

running frequencyПохоже, что увеличение уменьшило продажи на 24, но можем ли мы действительно доверять этой функции?

Если вы посмотрите на картинку выше, то увидите, что она имеет p-значение больше 0,5, что означает, что она не является статистически значимой.

В следующем разделе мы рассмотрим, как справиться с этой ситуацией.

Остаточная таблица

Таблица остатков отражает разницу между прогнозируемыми и фактическими значениями. Он состоит из значений, предсказанных нашей моделью:

Как мы можем улучшить нашу модель?

Как упоминалось ранее, переменнаяrunning frequencyЗначение p больше 0,05, поэтому давайте изучим результаты, удалив эту переменную из анализа.

Мы выполним все шаги, описанные выше, за исключениемrunning frequencyСписок:

Мы замечаем небольшое увеличение значения скорректированного R-квадрата с 0,920 до 0,929!

Делайте прогнозы с помощью Excel!

Мы готовы к регрессионному анализу, что теперь? покажи нам.

Один из ваших постоянных клиентов, Александр, заходит, и мы хотим спрогнозировать его продажи. Мы можем просто подставить числа из данных для модели линейной регрессии, и все готово!

Александр имеет доход 40 000 долларов и живет в 2 км от магазина. Каковы предполагаемые продажи?

Уравнение становится:

Здесь наша модель оценивает, что г-н Александра заплатит 4218 за свои новые туфли! В этом сила простой линейной регрессии в Microsoft Excel.

конец

В этой статье мы узнали, как построить модель линейной регрессии в Excel и как интерпретировать результаты. Я надеюсь, что это руководство помогло вам стать лучшим аналитиком или специалистом по данным.

Набор средств анализа содержит множество других параметров анализа Excel. Есть много других статистических анализов, которые вы можете попробовать в своей повседневной жизни!

Оригинальная ссылка:Woohoo.Со слов аналитиков vi.com/blog/2020/0…

Добро пожаловать на сайт блога Panchuang AI:panchuang.net/

sklearn машинное обучение китайские официальные документы:sklearn123.com/

Добро пожаловать на станцию ​​сводки ресурсов блога Panchuang:docs.panchuang.net/