Как выполнить множественный регрессионный анализ?

Опубликовано: 2021-11-23

В статистическом анализе модели регрессии в основном используются всякий раз, когда необходимо установить взаимосвязи между рассматриваемыми переменными. Связь устанавливается путем подгонки линии между всеми переменными. Чтобы понять поведение зависимой переменной, используются регрессионные модели. Они сообщают пользователю, как зависимые переменные изменяются при изменении независимых переменных.

Множественная линейная регрессия является одним из таких методов, который помогает нам оценить взаимосвязь между этими переменными, т. е. зависимыми и независимыми переменными. В этой статье основное внимание будет уделено технике множественной линейной регрессии и тому, как она выполняется.

Оглавление

Множественные линейные регрессии

Множественная линейная регрессия — это форма статистического метода, используемая для прогнозирования результатов любой переменной отклика. Одной из целей метода является установление линейной зависимости между независимыми и зависимыми переменными. Множественный линейный регрессионный анализ — это форма многомерного анализа , включающая более одной формы наблюдения.

В основном техника может быть выполнена, если вы хотите знать о следующих вещах:

  • Чтобы понять, насколько сильна связь между переменными. Кроме того, если вы хотите понять взаимосвязь между независимыми и зависимыми переменными, то в этих случаях мы можем использовать метод множественных линейных регрессий.
  • Этот метод можно использовать для прогнозирования значения зависимых переменных, соответствующих независимым переменным.

Допущения, учитываемые в множественных линейных регрессиях

В методах множественных линейных регрессий учитываются определенные допущения. Вот некоторые перечисленные допущения для MLR:

1. Однородность дисперсии

Это также известно как гомоскедастичность. Это означает, что при прогнозировании исхода не происходит существенных изменений ошибки, связанной с прогнозированием исхода через значения независимых переменных. Метод предполагает, что количество ошибок одинаково во всей модели MLR. Аналитик должен нанести на график остатки, стандартизированные по отношению к прогнозируемым значениям. Это помогает определить, справедливо ли распределение баллов по независимым переменным. Для построения данных можно использовать диаграмму рассеяния.

2. Независимость наблюдений

Наблюдения, учитываемые в множественной линейной регрессии, собираются с помощью надежных статистических методов. Это означает, что между собранными переменными нет скрытых или существующих отношений. Иногда в этой методике встречаются сценарии, в которых одни переменные коррелируют с другими переменными. Поэтому перед разработкой регрессионной модели всегда важно проверить эти коррелирующие переменные. Удаление одной из переменных из разработки модели всегда лучше для переменных, которые показывают высокую корреляцию.

3. Между независимыми переменными нет корреляции

По-другому можно отметить, что в данных не должно быть никакой мультиколлинеарности. Если присутствует какая-либо мультиколлинеарность, аналитику будет трудно определить переменную, влияющую на дисперсию зависимой переменной. Поэтому одним из методов, которые считаются лучшими для проверки предположения, является метод вариационного коэффициента инфляции.

4. Нормальность:

Это означает, что набор данных следует нормальному распределению.

5. Линейность

При поиске взаимосвязи между переменными пытаются провести прямую линию между переменными. Широко распространено мнение, что существует линейная связь между независимыми переменными и зависимыми переменными. Одним из способов проверки линейной зависимости является создание диаграмм рассеяния, а затем визуализация диаграмм рассеяния. Это позволяет пользователю наблюдать линейность, существующую в наблюдениях. Если линейной связи нет, то аналитик должен повторить свой анализ. Для выполнения MLR можно использовать статистическое программное обеспечение, такое как SPSS.

Математическое представление множественной линейной регрессии

Математическая картина модели множественной линейной регрессии показана в следующем уравнении:

В приведенном выше уравнении

  • Y представляет выходную переменную,
  • X представляет входные переменные,
  • Β представляет собой коэффициент, связанный с каждым термином.
  • B0 — это значение y-перехвата, которое означает значение Y, когда все остальные предикторы отсутствуют.

Иногда уравнение MLR состоит из члена ошибки, представленного термином «е» в конце членов уравнения.

При поиске наилучшего соответствия линии уравнение MLR используется для расчета следующих вещей:

  • Расчет коэффициентов регрессии, которые приводят к малейшей ошибке в уравнении MLR.
  • Для общей модели уравнение вычисляет значение t-статистики.
  • P-значение модели.

Обычные наименьшие квадраты

Метод множественной линейной регрессии также известен как метод наименьших квадратов (OLS). Это связано с тем, что метод MLR пытается найти наименьшую сумму квадратов. Следовательно, также известный как метод OLS. Для реализации этих методов можно использовать язык программирования python. Два метода, которые могут применять метод OLS в python:

1. Научное обучение

Это доступный пакет на языке программирования Python. Модули линейной регрессии должны быть импортированы из пакета Scikit Learn. Затем модель наполняется данными. Это простой метод, который можно широко использовать.

2. Модели статистики

Одним из других методов, используемых в языке программирования Python, является пакет Statsmodels. Этот пакет может помочь в реализации методов OLS.

Примеры множественных линейных регрессий

Несколько примеров для MLR перечислены ниже:

  • Модель множественной линейной регрессии можно использовать для прогнозирования урожайности. Это связано с тем, что в MLR существует связь между зависимой и независимой переменными. В такого рода исследованиях могут учитываться дополнительные факторы, такие как климатические факторы, осадки, уровень удобрений и температура.
  • Если необходимо установить связь между количеством часов проведенного исследования и классом GPA, то можно использовать метод MLR. В таких случаях средний балл будет являться зависимой переменной, а другая переменная, такая как количество учебных часов, будет объясняющей переменной.
  • Технику MLR можно использовать для определения заработной платы руководителя в компании на основе опыта и возраста руководителей. В таких случаях заработная плата станет зависимой переменной, а возраст и опыт — независимой переменной.

Рабочий процесс MLR

Данные должны быть подготовлены и проанализированы до того, как они попадут в регрессионную модель. Данные в основном анализируются на предмет наличия каких-либо ошибок, выбросов, отсутствующих значений и т. д. Вот несколько шагов, перечисленных, чтобы показать вам, как реализовать или применить методы множественной линейной регрессии.

1. Выбор переменных

MLR требует наличия набора данных, содержащего значения предикторов, которые имеют наибольшую связь с переменной ответа. Это означает, что максимум информации должен быть извлечен из минимального числа переменных. Выбор переменных может быть выполнен из следующих процессов.

  • Для поиска переменных можно выбрать автоматическую процедуру. Инструменты можно использовать вместе с программными пакетами R и Python, чтобы выбрать лучшие переменные для исследования MLR.
  • Всевозможная регрессия может быть выбрана для проверки наличия любых частей любых независимых переменных.
  • Значение R2 можно рассматривать для анализа лучших переменных. Переменные с большим значением R2 считаются наиболее подходящими для модели. Значения R2 могут быть из двух чисел, 0 и 1. Значение 0 означает, что ни одна из независимых переменных не может предсказать результат зависимых переменных. Значение 1 означает предсказание независимыми переменными и без ошибок.
  • Существует также еще один термин, который представляет собой предсказанную сумму квадратов (PRESSp). Если модель MLR имеет меньшее значение PRESSp, считается, что модель имеет лучшую прогностическую силу.

2. Уточнение модели

Модель MLR можно улучшить, проанализировав следующие критерии:

  • Значение глобального F-теста. Это используется для проверки значимости прогнозирования результата зависимой переменной независимой переменной.
  • Скорректирован R2 для проверки вариации полной выборки после корректировки параметров и размера выборки. Большее значение термина указывает на то, что переменные лучше соответствуют данным.
  • Среднеквадратичное отклонение или RMSE используется для оценки стандартного отклонения случайных ошибок.
  • Считается, что модель MLR дает точные прогнозы, если значение коэффициента вариации составляет 10% или меньше этого значения.

3. Тестирование предположений модели

Рассмотренные допущения проверяются в модели линейной регрессии. Эти предположения должны быть удовлетворены.

4. Решение проблем, связанных с моделью

В тех случаях, когда некоторые из допущений, рассматриваемых в модели, нарушаются, следует предпринять шаги для минимизации таких проблем.

5. Проверка модели

Это последний шаг в создании модели MLR, и он считается важным. После создания модели ее необходимо проверить. После проверки его можно использовать для любого анализа множественной линейной регрессии .

Заключение

Множественная линейная регрессия является одним из наиболее широко используемых методов в любом исследовании для установления корреляции между переменными. Он также считается важным алгоритмом в мире машинного обучения. Однако, если вы новичок в регрессионном анализе, всегда лучше иметь представление о регрессионных моделях и простых линейных регрессиях.

Пройдите курсы по машинному обучению в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Повысьте свою карьеру в области машинного обучения и искусственного интеллекта

Подать заявку на получение исполнительной сертификации в Ai-ml от IIITB