Линейная регрессия, объясненная на примере
Опубликовано: 2021-10-13Линейная регрессия — один из наиболее распространенных алгоритмов установления взаимосвязей между переменными набора данных. Математическая модель является необходимым инструментом для специалистов по данным при проведении прогнозного анализа. Этот блог познакомит вас с фундаментальной концепцией, а также обсудит пример линейной регрессии.
Оглавление
Что такое регрессионные модели?
Модель регрессии описывает взаимосвязь между переменными набора данных, подгоняя линию к наблюдаемым данным. Это математический анализ, который определяет, какие переменные оказывают влияние и имеют наибольшее значение. Это также определяет, насколько мы уверены в задействованных факторах. Два вида переменных:
- Зависимый: Фактор, который вы пытаетесь предсказать или понять.
- Независимые: факторы, которые, как вы подозреваете, влияют на зависимую переменную.
Модели регрессии используются, когда зависимая переменная является количественной. Он может быть бинарным в случае логистической регрессии. Но в этом блоге мы в основном сосредоточимся на модели линейной регрессии, в которой обе переменные являются количественными.
Предположим, у вас есть данные о месячных продажах и среднемесячных осадках за последние три года. Допустим, вы нанесли эту информацию на график. Ось Y представляет количество продаж (зависимая переменная), а ось X отображает общее количество осадков. Каждая точка на диаграмме будет показывать, сколько дождя выпало в течение определенного месяца, и соответствующие цифры продаж.
Если вы еще раз взглянете на данные, вы можете заметить закономерность. Предположим, что продажи будут выше в те дни, когда шел дождь. Но было бы сложно оценить, сколько вы обычно продаете, когда идет дождь определенного размера, скажем, 3 или 4 дюйма. Вы можете получить некоторую степень уверенности, если проведете линию через середину всех точек данных на графике.
В настоящее время Excel и программное обеспечение для статистики, такое как SPSS, R или STATA, могут помочь вам нарисовать линию, которая лучше всего соответствует имеющимся данным. Кроме того, вы также можете вывести формулу, объясняющую наклон линии.
Рассмотрим эту формулу для приведенного выше примера: Y = 200 + 3X. В нем говорится, что вы продали 200 единиц, когда дождя не было вообще (т. е. когда X=0). Если предположить, что переменные остаются прежними по мере продвижения вперед, каждый дополнительный дюйм дождя приведет к увеличению продаж в среднем на три единицы. Вы бы продали 203 единицы, если выпало 1 дюйм дождя, 206 единиц, если выпало 2 дюйма, 209 дюймов, если выпало 3 дюйма, и так далее.
Как правило, формула линии регрессии также включает член ошибки (Y = 200 + 3 X + член ошибки). Он принимает во внимание тот факт, что независимые предикторы не всегда могут быть идеальными предикторами зависимых переменных. И линия просто дает вам оценку, основанную на доступных данных. Чем больше член ошибки, тем менее определенной будет ваша линия регрессии.
Основы линейной регрессии
В простой модели линейной регрессии для оценки связи между двумя количественными переменными используется прямая линия. Если у вас есть более одной независимой переменной, вместо этого вы будете использовать множественную линейную регрессию.
Простой линейный регрессионный анализ связан с двумя вещами. Во-первых, он говорит вам о силе взаимосвязи между зависимыми и независимыми факторами исторических данных. Во-вторых, он дает вам значение зависимой переменной при определенном значении независимой переменной.
Рассмотрим этот пример линейной регрессии. Социальный исследователь, заинтересованный в том, чтобы узнать, как доход людей влияет на их уровень счастья, проводит простой регрессионный анализ, чтобы увидеть, имеет ли место линейная зависимость. Исследователь получает количественные значения зависимой переменной (счастья) и независимой переменной (дохода), опрашивая людей в определенном географическом месте.
Например, данные содержат данные о доходах и уровнях счастья (от 1 до 10) 500 человек из индийского штата Махараштра. Затем исследователь наносил точки данных и строил линию регрессии, чтобы узнать, насколько заработок респондентов влияет на их благополучие.
Линейный регрессионный анализ основан на нескольких предположениях о данных. Есть:
- Линейность зависимости между зависимой и независимой переменной, т. е. линия наилучшего соответствия прямая, а не кривая.)
- Однородность дисперсии, то есть размер ошибки в прогнозе, существенно не меняется при разных значениях независимой переменной.
- Независимость наблюдений в наборе данных, отсутствие скрытых связей.
- Нормальность распределения данных для зависимой переменной. Вы можете проверить то же самое, используя функцию hist() в R.
Математика линейной регрессии
y = c + ax — это стандартное уравнение, где y — результат (который мы хотим оценить), x — входная переменная (которую мы знаем), a — наклон линии, а c — константа.
Здесь выход изменяется линейно в зависимости от входа. Наклон определяет, насколько x влияет на значение y. Константа — это значение y, когда x равно нулю.
Давайте разберемся с этим на другом примере линейной регрессии. Представьте, что вы работаете в автомобильной компании и хотите изучить рынок легковых автомобилей Индии. Допустим, национальный ВВП влияет на продажи легковых автомобилей. Чтобы лучше планировать бизнес, вы можете узнать линейное уравнение количества автомобилей, проданных в стране, относительно ВВП.
Для этого вам потребуются выборочные данные о продажах легковых автомобилей в годовом исчислении и данные о ВВП за каждый год. Вы можете обнаружить, что ВВП текущего года влияет на продажи в следующем году: в каком бы году ВВП ни был меньше, в последующем году продажи автомобилей были ниже.
Чтобы подготовить эти данные для аналитики машинного обучения, вам потребуется немного больше работы.
- Пожалуйста, начните с уравнения y = c + ax, где y — количество автомобилей, проданных за год, а x — ВВП за предыдущий год.
- Чтобы узнать c и an в приведенной выше задаче, вы можете создать модель с помощью Python.
Ознакомьтесь с этим руководством , чтобы понять пошаговый метод
Если бы вы выполняли простую линейную регрессию в R, интерпретация результатов и составление отчетов становились бы намного проще.
Для того же примера линейной регрессии изменим уравнение на y=B0 + B1x + e. Опять же, у — зависимая переменная, а х — независимая или известная переменная. B0 — константа или точка пересечения, B1 — наклон коэффициента регрессии, а e — ошибка оценки.
Статистическое программное обеспечение, такое как R, может найти линию наилучшего соответствия данных и найти B1, который минимизирует общую ошибку модели.
Чтобы начать, выполните следующие действия:
- Загрузите набор данных о продажах легковых автомобилей в среду R.
- Запустите команду, чтобы сгенерировать линейную модель, описывающую взаимосвязь между продажами легковых автомобилей и ВВП.
- sales.gdp.lm <- lm(gdp ~ объем продаж, данные = объем продаж.данные)
- Используйте функцию summary() для просмотра наиболее важных параметров линейной модели в табличной форме.
- сводка(продажи.gdp.lm)
Примечание . Выходные данные будут содержать такие результаты, как вызовы, остатки и коэффициенты. В таблице «Вызов» указана используемая формула. «Остатки» детализируют медиану, квартили, минимальные и максимальные значения, чтобы указать, насколько хорошо модель соответствует реальным данным. В первой строке таблицы «Коэффициенты» оценивается точка пересечения с осью y, а во второй строке — коэффициент регрессии. Столбцы этой таблицы имеют такие метки, как Estimate, Std. Ошибка, значение t и значение p.
Изучите курс машинного обучения от лучших университетов мира. Заработайте программы Masters, Executive PGP или Advanced Certificate Programs, чтобы ускорить свою карьеру.
- Подставьте значение (Intercept) в уравнение регрессии, чтобы спрогнозировать значения продаж в диапазоне значений ВВП.
- Изучите столбец (Оценка), чтобы узнать эффект. Коэффициент регрессии покажет вам, насколько объем продаж изменится с изменением ВВП.
- Узнайте вариацию вашей оценки взаимосвязи между продажами и ВВП по метке (Std. Error).
- Посмотрите на статистику теста под (значение t), чтобы узнать, были ли результаты случайными. Чем больше значение t, тем меньше вероятность, что это будет.
- Просмотрите столбец Pr(>|t|) или значения p, чтобы увидеть предполагаемое влияние ВВП на продажи, если бы нулевая гипотеза была верна.
- Представьте свои результаты с предполагаемым эффектом, стандартной ошибкой и p-значениями, четко указав, что означает коэффициент регрессии.
- Включите график в отчет. Простую линейную регрессию можно представить в виде графика с линией регрессии и функцией.
- Вычислите ошибку, измерив расстояние между наблюдаемыми и предсказанными значениями y, возведя в квадрат расстояния при каждом значении x и вычислив их среднее значение.
Заключение
В приведенном выше примере линейной регрессии мы дали вам обзор создания простой модели линейной регрессии, нахождения коэффициента регрессии и расчета ошибки оценки. Мы также коснулись актуальности Python и R для прогнозной аналитики данных и статистики. Практические знания таких инструментов имеют решающее значение для карьеры в науке о данных и машинном обучении сегодня.
Если вы хотите отточить свои навыки программирования, ознакомьтесь с программой Advanced Certificate Program in Machine Learning от IIT Madras и upGrad. Онлайн-курс также включает тематические исследования, проекты и сеансы наставничества экспертов, чтобы привнести в учебный процесс отраслевую ориентацию.