Линейная регрессия, объясненная на примере

Опубликовано: 2021-10-13

Линейная регрессия — один из наиболее распространенных алгоритмов установления взаимосвязей между переменными набора данных. Математическая модель является необходимым инструментом для специалистов по данным при проведении прогнозного анализа. Этот блог познакомит вас с фундаментальной концепцией, а также обсудит пример линейной регрессии.

Оглавление

Что такое регрессионные модели?

Модель регрессии описывает взаимосвязь между переменными набора данных, подгоняя линию к наблюдаемым данным. Это математический анализ, который определяет, какие переменные оказывают влияние и имеют наибольшее значение. Это также определяет, насколько мы уверены в задействованных факторах. Два вида переменных:

Зависимый: Фактор, который вы пытаетесь предсказать или понять.
Независимые: факторы, которые, как вы подозреваете, влияют на зависимую переменную.

Модели регрессии используются, когда зависимая переменная является количественной. Он может быть бинарным в случае логистической регрессии. Но в этом блоге мы в основном сосредоточимся на модели линейной регрессии, в которой обе переменные являются количественными.

Предположим, у вас есть данные о месячных продажах и среднемесячных осадках за последние три года. Допустим, вы нанесли эту информацию на график. Ось Y представляет количество продаж (зависимая переменная), а ось X отображает общее количество осадков. Каждая точка на диаграмме будет показывать, сколько дождя выпало в течение определенного месяца, и соответствующие цифры продаж.

Если вы еще раз взглянете на данные, вы можете заметить закономерность. Предположим, что продажи будут выше в те дни, когда шел дождь. Но было бы сложно оценить, сколько вы обычно продаете, когда идет дождь определенного размера, скажем, 3 или 4 дюйма. Вы можете получить некоторую степень уверенности, если проведете линию через середину всех точек данных на графике.

В настоящее время Excel и программное обеспечение для статистики, такое как SPSS, R или STATA, могут помочь вам нарисовать линию, которая лучше всего соответствует имеющимся данным. Кроме того, вы также можете вывести формулу, объясняющую наклон линии.

Рассмотрим эту формулу для приведенного выше примера: Y = 200 + 3X. В нем говорится, что вы продали 200 единиц, когда дождя не было вообще (т. е. когда X=0). Если предположить, что переменные остаются прежними по мере продвижения вперед, каждый дополнительный дюйм дождя приведет к увеличению продаж в среднем на три единицы. Вы бы продали 203 единицы, если выпало 1 дюйм дождя, 206 единиц, если выпало 2 дюйма, 209 дюймов, если выпало 3 дюйма, и так далее.

Как правило, формула линии регрессии также включает член ошибки (Y = 200 + 3 X + член ошибки). Он принимает во внимание тот факт, что независимые предикторы не всегда могут быть идеальными предикторами зависимых переменных. И линия просто дает вам оценку, основанную на доступных данных. Чем больше член ошибки, тем менее определенной будет ваша линия регрессии.

Основы линейной регрессии

В простой модели линейной регрессии для оценки связи между двумя количественными переменными используется прямая линия. Если у вас есть более одной независимой переменной, вместо этого вы будете использовать множественную линейную регрессию.

Простой линейный регрессионный анализ связан с двумя вещами. Во-первых, он говорит вам о силе взаимосвязи между зависимыми и независимыми факторами исторических данных. Во-вторых, он дает вам значение зависимой переменной при определенном значении независимой переменной.

Рассмотрим этот пример линейной регрессии. Социальный исследователь, заинтересованный в том, чтобы узнать, как доход людей влияет на их уровень счастья, проводит простой регрессионный анализ, чтобы увидеть, имеет ли место линейная зависимость. Исследователь получает количественные значения зависимой переменной (счастья) и независимой переменной (дохода), опрашивая людей в определенном географическом месте.

Например, данные содержат данные о доходах и уровнях счастья (от 1 до 10) 500 человек из индийского штата Махараштра. Затем исследователь наносил точки данных и строил линию регрессии, чтобы узнать, насколько заработок респондентов влияет на их благополучие.

Линейный регрессионный анализ основан на нескольких предположениях о данных. Есть:

Линейность зависимости между зависимой и независимой переменной, т. е. линия наилучшего соответствия прямая, а не кривая.)
Однородность дисперсии, то есть размер ошибки в прогнозе, существенно не меняется при разных значениях независимой переменной.
Независимость наблюдений в наборе данных, отсутствие скрытых связей.
Нормальность распределения данных для зависимой переменной. Вы можете проверить то же самое, используя функцию hist() в R.

Математика линейной регрессии

y = c + ax — это стандартное уравнение, где y — результат (который мы хотим оценить), x — входная переменная (которую мы знаем), a — наклон линии, а c — константа.

Здесь выход изменяется линейно в зависимости от входа. Наклон определяет, насколько x влияет на значение y. Константа — это значение y, когда x равно нулю.

Давайте разберемся с этим на другом примере линейной регрессии. Представьте, что вы работаете в автомобильной компании и хотите изучить рынок легковых автомобилей Индии. Допустим, национальный ВВП влияет на продажи легковых автомобилей. Чтобы лучше планировать бизнес, вы можете узнать линейное уравнение количества автомобилей, проданных в стране, относительно ВВП.

Для этого вам потребуются выборочные данные о продажах легковых автомобилей в годовом исчислении и данные о ВВП за каждый год. Вы можете обнаружить, что ВВП текущего года влияет на продажи в следующем году: в каком бы году ВВП ни был меньше, в последующем году продажи автомобилей были ниже.

Чтобы подготовить эти данные для аналитики машинного обучения, вам потребуется немного больше работы.

Пожалуйста, начните с уравнения y = c + ax, где y — количество автомобилей, проданных за год, а x — ВВП за предыдущий год.
Чтобы узнать c и an в приведенной выше задаче, вы можете создать модель с помощью Python.

Ознакомьтесь с этим руководством , чтобы понять пошаговый метод

Если бы вы выполняли простую линейную регрессию в R, интерпретация результатов и составление отчетов становились бы намного проще.

Для того же примера линейной регрессии изменим уравнение на y=B0 + B1x + e. Опять же, у — зависимая переменная, а х — независимая или известная переменная. B0 — константа или точка пересечения, B1 — наклон коэффициента регрессии, а e — ошибка оценки.

Статистическое программное обеспечение, такое как R, может найти линию наилучшего соответствия данных и найти B1, который минимизирует общую ошибку модели.

Чтобы начать, выполните следующие действия:

Загрузите набор данных о продажах легковых автомобилей в среду R.
Запустите команду, чтобы сгенерировать линейную модель, описывающую взаимосвязь между продажами легковых автомобилей и ВВП.
- sales.gdp.lm <- lm(gdp ~ объем продаж, данные = объем продаж.данные)
Используйте функцию summary() для просмотра наиболее важных параметров линейной модели в табличной форме.
- сводка(продажи.gdp.lm)

Примечание . Выходные данные будут содержать такие результаты, как вызовы, остатки и коэффициенты. В таблице «Вызов» указана используемая формула. «Остатки» детализируют медиану, квартили, минимальные и максимальные значения, чтобы указать, насколько хорошо модель соответствует реальным данным. В первой строке таблицы «Коэффициенты» оценивается точка пересечения с осью y, а во второй строке — коэффициент регрессии. Столбцы этой таблицы имеют такие метки, как Estimate, Std. Ошибка, значение t и значение p.

Изучите курс машинного обучения от лучших университетов мира. Заработайте программы Masters, Executive PGP или Advanced Certificate Programs, чтобы ускорить свою карьеру.

Подставьте значение (Intercept) в уравнение регрессии, чтобы спрогнозировать значения продаж в диапазоне значений ВВП.
Изучите столбец (Оценка), чтобы узнать эффект. Коэффициент регрессии покажет вам, насколько объем продаж изменится с изменением ВВП.
Узнайте вариацию вашей оценки взаимосвязи между продажами и ВВП по метке (Std. Error).
Посмотрите на статистику теста под (значение t), чтобы узнать, были ли результаты случайными. Чем больше значение t, тем меньше вероятность, что это будет.
Просмотрите столбец Pr(>|t|) или значения p, чтобы увидеть предполагаемое влияние ВВП на продажи, если бы нулевая гипотеза была верна.
Представьте свои результаты с предполагаемым эффектом, стандартной ошибкой и p-значениями, четко указав, что означает коэффициент регрессии.
Включите график в отчет. Простую линейную регрессию можно представить в виде графика с линией регрессии и функцией.
Вычислите ошибку, измерив расстояние между наблюдаемыми и предсказанными значениями y, возведя в квадрат расстояния при каждом значении x и вычислив их среднее значение.

Заключение

В приведенном выше примере линейной регрессии мы дали вам обзор создания простой модели линейной регрессии, нахождения коэффициента регрессии и расчета ошибки оценки. Мы также коснулись актуальности Python и R для прогнозной аналитики данных и статистики. Практические знания таких инструментов имеют решающее значение для карьеры в науке о данных и машинном обучении сегодня.

Если вы хотите отточить свои навыки программирования, ознакомьтесь с программой Advanced Certificate Program in Machine Learning от IIT Madras и upGrad. Онлайн-курс также включает тематические исследования, проекты и сеансы наставничества экспертов, чтобы привнести в учебный процесс отраслевую ориентацию.

Повысьте свою карьеру в области машинного обучения и искусственного интеллекта

Подать заявку на получение степени магистра наук в области машинного обучения и искусственного интеллекта от LJMU