¿Cómo realizar un análisis de regresión múltiple?

Publicado: 2021-11-23

En el análisis estadístico, los modelos de regresión se utilizan principalmente cuando es necesario para desarrollar relaciones entre las variables consideradas. La relación se establece ajustando una línea entre todas las variables. Para comprender el comportamiento de la variable dependiente se utilizan modelos de regresión. Permiten al usuario saber cómo cambian las variables dependientes con el cambio de las variables independientes.

Las regresiones lineales múltiples son una de esas técnicas que nos ayudan a estimar la relación entre esas variables, es decir, las variables dependientes e independientes. Este artículo se centrará en la técnica de las regresiones lineales múltiples y cómo se lleva a cabo.

Tabla de contenido

Regresiones lineales múltiples

Las regresiones lineales múltiples son una forma de técnica estadística utilizada para predecir los resultados de cualquier variable de respuesta. Uno de los objetivos de la técnica es establecer una relación lineal entre las variables independientes y dependientes. El análisis de regresión lineal múltiple es una forma de análisis multivariante que involucra más de una forma de observación.

En su mayoría, la técnica se puede llevar a cabo si desea saber sobre las siguientes cosas:

  • Entender qué tan fuerte es la relación entre las variables. Además, si desea comprender la relación entre las variables independientes y dependientes, entonces, en esos casos, podemos usar la técnica de regresiones lineales múltiples.
  • La técnica se puede utilizar para predecir el valor de las variables dependientes correspondientes a las variables independientes.

Supuestos considerados en las regresiones lineales múltiples

Ciertos supuestos son considerados en las técnicas de regresión lineal múltiple. Aquí hay algunos supuestos enumerados para MLR:

1. Homogeneidad de la varianza

También se conoce como homocedasticidad. Esto significa que mientras se predice un resultado, no hay cambios significativos en el error asociado con la predicción del resultado a través de los valores de las variables independientes. El método asume que la cantidad de error es la misma en todo el modelo de MLR. El analista debe graficar los residuales que están estandarizados frente a los valores pronosticados. Esto ayuda a determinar si existe una distribución justa de puntos entre las variables independientes. Se puede usar un diagrama de dispersión para graficar los datos.

2. Independencia de las observaciones

Las observaciones consideradas en la Regresión Lineal Múltiple se recogen mediante técnicas estadísticas válidas. Esto significa que no hay relaciones ocultas o existentes entre las variables recopiladas. A veces, en esta técnica, hay escenarios donde unas variables se correlacionan con otras variables. Por lo tanto, antes de desarrollar el modelo de regresión, siempre es importante verificar estas variables correlacionadas. Eliminar una de las variables del desarrollo del modelo siempre es mejor para las variables que muestran una alta correlación.

3. No existe correlación entre las variables independientes

De otra manera, se puede mencionar que no debe haber multicolinealidad en los datos. Si hay presencia de alguna multicolinealidad, al analista le resultará difícil identificar la variable que contribuye a la varianza de la variable dependiente. Por lo tanto, uno de los métodos que se consideran mejores para probar el supuesto es el método de variación del factor de inflación.

4. Normalidad:

Esto significa que el conjunto de datos sigue la distribución normal.

5. Linealidad

Mientras se busca la relación entre las variables, se intenta ajustar una línea recta entre las variables. Se supone ampliamente que existe la existencia de una relación lineal entre las variables independientes y las variables dependientes. Una forma de verificar la relación lineal es a través de la creación de diagramas de dispersión y luego visualizar los diagramas de dispersión. Permite al usuario observar la linealidad existente en las observaciones. Si en caso de que no haya una relación lineal, entonces el analista tiene que repetir su análisis. Se puede utilizar software estadístico como SPSS para realizar la MLR.

Representación Matemática de Regresión Lineal Múltiple

La imagen matemática de un modelo de regresión lineal múltiple se muestra en la siguiente ecuación:

En la ecuación anterior,

  • Y representa la variable de salida,
  • X representa las variables de entrada,
  • Β representa el coeficiente asociado a cada término.
  • B0 es el valor de la intersección y, lo que significa el valor de Y cuando todos los demás predictores están ausentes.

A veces, la ecuación de MLR consta de un término de error representado con el término "e" al final de los términos de la ecuación.

Al encontrar el mejor ajuste de la línea, la ecuación MLR se usa para calcular lo siguiente:

  • Cálculo de los coeficientes de regresión que dan como resultado el más mínimo error en la ecuación MLR.
  • Para el modelo general, la ecuación calcula el valor de la estadística t.
  • Valor p del modelo.

Mínimos cuadrados ordinarios

El método de Regresión Lineal Múltiple también se conoce como Mínimos Cuadrados Ordinarios (OLS). Esto se debe a que el método de MLR intenta encontrar la mínima suma de cuadrados. Por lo tanto, también conocido como el método OLS. El lenguaje de programación python se puede utilizar para implementar estos métodos. Los dos métodos que pueden aplicar el método OLS en python son:

1. SciKit Aprende

Este es un paquete disponible en un lenguaje de programación python. Los módulos de regresión lineal deben importarse desde el paquete de Scikit Learn. Luego se ajusta el modelo con los datos. Es un método sencillo y se puede utilizar ampliamente.

2. Modelos de estadísticas

Uno de los otros métodos utilizados en el lenguaje de programación python es el paquete de Statsmodels. Este paquete puede ayudar a implementar las técnicas OLS.

Ejemplos de regresiones lineales múltiples

A continuación se enumeran algunos de los ejemplos de MLR:

  • El modelo de Regresión Lineal Múltiple se puede utilizar para la predicción de los rendimientos de los cultivos. Esto se debe a que, en MLR, existe una asociación entre las variables dependientes e independientes. En tales tipos de estudios, se pueden considerar factores adicionales como factores climáticos, lluvia, nivel de fertilizante y temperatura.
  • Si se debe establecer una conexión entre la cantidad de horas de un estudio realizado y el GPA de la clase, entonces se puede usar el método MLR. En tales casos, el GPA será la variable dependiente mientras que la otra variable, como las horas de estudio, será la variable explicativa.
  • La técnica de MLR se puede utilizar para determinar el salario del ejecutivo en una empresa en función de la experiencia y la edad de los ejecutivos. En tales casos, el salario se convertirá en la variable dependiente, mientras que la edad y la experiencia serán la variable independiente.

Flujo de trabajo del MLR

Los datos deben prepararse y analizarse antes de pasar al modelo de regresión. La mayoría de los datos se analizan en busca de errores, valores atípicos, valores faltantes, etc. A continuación se enumeran algunos pasos para mostrarle cómo implementar o aplicar las técnicas de regresión lineal múltiple.

1. Elección de variables

El MLR requiere tener un conjunto de datos que contenga los valores predictores que tengan la mayor relación con la variable de respuesta. Esto significa que se debe extraer la máxima información de un número mínimo de variables. La selección de las variables se puede realizar a partir de los siguientes procesos.

  • Se puede optar por un procedimiento automático para la búsqueda de las variables. Las herramientas se pueden usar junto con los paquetes de programación de R y Python para decidir las mejores variables para el estudio de MLR.
  • Se puede optar por la regresión de todo lo posible para verificar la presencia de cualquier subparte de cualquier variable independiente.
  • El valor de R2 se puede considerar para analizar las mejores variables. Aquellas variables con un mayor valor de R2 se consideran las de mejor ajuste en el modelo. Los valores de R2 pueden estar fuera de los dos números, 0 y 1. El valor 0 significa que ninguna de las variables independientes puede predecir el resultado de las variables dependientes. El valor de 1 significa la predicción por las variables independientes y sin errores.
  • También hay otro término que es la suma de cuadrados predicha (PRESSp). Si el modelo de MLR tiene un PRESSp más pequeño, se considera que el modelo tiene una mejor fuerza predictiva.

2. Refinamiento del modelo

El modelo de MLR se puede mejorar mediante el examen de los siguientes criterios:

  • El valor de la prueba F global. Esto se usa para probar la importancia de predecir el resultado de la variable dependiente por la variable independiente.
  • R2 ajustado para verificar la variación de la muestra completa después de ajustar los parámetros y el tamaño de la muestra. El mayor valor del término indica que las variables se ajustan mejor a los datos.
  • La desviación cuadrática media o el RMSE se utiliza para estimar la desviación estándar de los errores aleatorios.
  • Se considera que el modelo de MLR proporciona predicciones precisas si el valor del coeficiente de variación es del 10 % o menos.

3. Supuestos del modelo de prueba

Los supuestos considerados se prueban en el modelo de regresión lineal. Estos supuestos deben ser satisfechos.

4. Abordar los problemas asociados al modelo

En los casos en que se violen algunos de los supuestos considerados en el modelo, se deben tomar medidas para minimizar tales problemas.

5. Validación del modelo

Este es el último paso en la generación del modelo MLR y se considera importante. Después de la generación del modelo, el modelo necesita ser validado. Una vez que se valida, se puede utilizar para cualquier análisis de regresión lineal múltiple .

Conclusión

La Regresión Lineal Múltiple es una de las técnicas más utilizadas en cualquier estudio de investigación para establecer la correlación entre las variables. También se considera un algoritmo importante en el mundo del aprendizaje automático. Sin embargo, si es nuevo en el análisis de regresión, siempre es mejor tener una idea de los modelos de regresión y las regresiones lineales simples.

Obtenga cursos de aprendizaje automático de las mejores universidades del mundo. Obtenga programas Executive PG, programas de certificados avanzados o programas de maestría para acelerar su carrera.

Mejore su carrera en aprendizaje automático e inteligencia artificial

Solicite ahora la certificación ejecutiva en Ai-ml de IIITB