Regresión lineal explicada con un ejemplo
Publicado: 2021-10-13La regresión lineal es uno de los algoritmos más comunes para establecer relaciones entre las variables de un conjunto de datos. Un modelo matemático es una herramienta necesaria para que los científicos de datos realicen análisis predictivos. Este blog te informará sobre el concepto fundamental y también discutirá un ejemplo de regresión lineal.
Tabla de contenido
¿Qué son los modelos de regresión?
Un modelo de regresión describe la relación entre las variables del conjunto de datos ajustando una línea a los datos observados. Es un análisis matemático que clasifica qué variables tienen un impacto y son más importantes. También determina qué tan seguros estamos acerca de los factores involucrados. Los dos tipos de variables son:
- Dependiente: factor que está tratando de predecir o comprender.
- Independiente: Factores que sospecha que tienen un impacto en la variable dependiente.
Los modelos de regresión se utilizan cuando la variable dependiente es cuantitativa. Puede ser binario en el caso de regresión logística. Pero en este blog, nos enfocaremos principalmente en el modelo de regresión lineal donde ambas variables son cuantitativas.
Suponga que tiene datos sobre las ventas mensuales y la precipitación mensual promedio de los últimos tres años. Digamos que trazaste esta información en un gráfico. El eje y representa el número de ventas (variable dependiente), y el eje x representa la precipitación total. Cada punto en el gráfico mostraría cuánto llovió durante un mes en particular y las cifras de ventas correspondientes.
Si vuelve a echar un vistazo a los datos, es posible que observe un patrón. Suponga que las ventas son mayores en los días que llueve más. Pero sería complicado estimar cuánto vendería normalmente cuando lloviera una cierta cantidad, digamos 3 o 4 pulgadas. Podría obtener cierto grado de certeza si dibujara una línea a través del medio de todos los puntos de datos en el gráfico.
Hoy en día, Excel y el software de estadísticas como SPSS, R o STATA pueden ayudarlo a dibujar una línea que se ajuste mejor a los datos disponibles. Además, también puede generar una fórmula que explique la pendiente de la línea.
Considere esta fórmula para el ejemplo anterior: Y = 200 + 3X. Te dice que vendiste 200 unidades cuando no llovió nada (es decir, cuando X=0). Suponiendo que las variables se mantengan igual a medida que avanzamos, cada pulgada adicional de lluvia daría como resultado un promedio de ventas de tres unidades más. Venderías 203 unidades si llueve 1 pulgada, 206 unidades si llueve 2 pulgadas, 209 pulgadas si llueve 3 pulgadas y así sucesivamente.
Por lo general, la fórmula de la línea de regresión también incluye un término de error (Y = 200 + 3 X + término de error). Tiene en cuenta la realidad de que los predictores independientes pueden no ser siempre predictores perfectos de las variables dependientes. Y la línea simplemente le da una estimación basada en los datos disponibles. Cuanto mayor sea el término de error, menos segura será su línea de regresión.
Conceptos básicos de regresión lineal
Un modelo de regresión lineal simple utiliza una línea recta para estimar la relación entre dos variables cuantitativas. Si tiene más de una variable independiente, utilizará la regresión lineal múltiple en su lugar.
El análisis de regresión lineal simple se ocupa de dos cosas. Primero, le dice la fuerza de la relación entre los factores dependientes e independientes de los datos históricos. En segundo lugar, te da el valor de la variable dependiente en un determinado valor de la variable independiente.
Considere este ejemplo de regresión lineal. Un investigador social interesado en saber cómo los ingresos de las personas afectan sus niveles de felicidad realiza un análisis de regresión simple para ver si se produce una relación lineal. El investigador toma valores cuantitativos de la variable dependiente (felicidad) y la variable independiente (ingresos) encuestando a personas en una ubicación geográfica particular.
Por ejemplo, los datos contienen cifras de ingresos y niveles de felicidad (clasificados en una escala del 1 al 10) de 500 personas del estado indio de Maharashtra. Luego, el investigador trazaría los puntos de datos y ajustaría una línea de regresión para saber cuánto influyen los ingresos de los encuestados en su bienestar.
El análisis de regresión lineal se basa en algunas suposiciones sobre los datos. Hay:
- Linealidad de la relación entre la variable dependiente e independiente, es decir, la línea de mejor ajuste es recta, no curva).
- La homogeneidad de la varianza, es decir, el tamaño del error en la predicción, no cambia significativamente entre diferentes valores de la variable independiente.
- Independencia de las observaciones en el conjunto de datos, refiriéndose a relaciones no ocultas.
- Normalidad de distribución de datos para la variable dependiente. Puede verificar lo mismo usando la función hist() en R.
Las matemáticas detrás de la regresión lineal
y = c + ax es una ecuación estándar donde y es la salida (que queremos estimar), x es la variable de entrada (que conocemos), a es la pendiente de la línea y c es la constante.
Aquí, la salida varía linealmente en función de la entrada. La pendiente determina cuánto afecta x al valor de y. La constante es el valor de y cuando x es cero.
Entendamos esto a través de otro ejemplo de regresión lineal. Imagine que está empleado en una empresa de automóviles y desea estudiar el mercado de vehículos de pasajeros de la India. Digamos que el PIB nacional influye en las ventas de vehículos de pasajeros. Para planificar mejor el negocio, es posible que desee averiguar la ecuación lineal de la cantidad de vehículos vendidos en el país en relación con el PIB.
Para esto, necesitaría datos de muestra para las ventas de vehículos de pasajeros por año y las cifras del PIB para cada año. Es posible que descubra que el PIB del año en curso afecta las ventas del próximo año: cualquiera que sea el año en que el PIB fue menor, las ventas de vehículos fueron menores en el año siguiente.
Para preparar estos datos para el análisis de Machine Learning, necesitaría trabajar un poco más.
- Comience con la ecuación y = c + ax, donde y es la cantidad de vehículos vendidos en un año y x es el PIB del año anterior.
- Para averiguar c y an en el problema anterior, puede crear un modelo usando Python.
Consulte este tutorial para comprender el método paso a paso.
Si tuviera que realizar una regresión lineal simple en R, la interpretación y el informe de los resultados serían mucho más fáciles.
Para el mismo ejemplo de regresión lineal, cambiemos la ecuación a y=B0 + B1x + e. De nuevo, y es la variable dependiente yx es la variable independiente o conocida. B0 es la constante o intersección, B1 es la pendiente del coeficiente de regresión y e es el error de la estimación.
El software estadístico como R puede encontrar la línea de mejor ajuste a través de los datos y buscar el B1 que minimiza el error total del modelo.
Siga estos pasos para comenzar:
- Cargue el conjunto de datos de ventas de vehículos de pasajeros en el entorno R.
- Ejecute el comando para generar un modelo lineal que describa la relación entre las ventas de vehículos de pasajeros y el PIB.
- ventas.pib.lm <- lm(pib ~ ventas, datos = ventas.datos)
- Utilice la función summary() para ver los parámetros del modelo lineal más importantes en forma tabulada.
- resumen(ventas.gdp.lm)
Nota: La salida contendría resultados como llamadas, Residuales y Coeficientes. La tabla 'Call' indica la fórmula utilizada. Los 'Residuales' detallan la mediana, los cuartiles, los valores mínimos y máximos para indicar qué tan bien se ajusta el modelo a los datos reales. La primera fila de la tabla 'Coeficientes' estima la intersección y, y la segunda fila proporciona el coeficiente de regresión. Las columnas de esta tabla tienen etiquetas como Estimación, Estándar. Error, valor t y valor p.
Aprenda el curso de aprendizaje automático de las mejores universidades del mundo. Obtenga programas de maestría, PGP ejecutivo o certificado avanzado para acelerar su carrera.
- Introduzca el valor (Intercepción) en la ecuación de regresión para predecir los valores de ventas en todo el rango de cifras del PIB.
- Investigue la columna (Estimación) para conocer el efecto. El coeficiente de regresión le diría cuánto cambian las ventas con el cambio en el PIB.
- Averigüe la variación en su estimación de la relación entre las ventas y el PIB a partir de la etiqueta (Error estándar).
- Mire la estadística de prueba debajo de (valor t) para saber si los resultados se produjeron por casualidad. Cuanto mayor sea el valor t, menos probable será.
- Revise la columna Pr(>|t|) o los valores p para ver el efecto estimado del PIB en las ventas si la hipótesis nula fuera cierta.
- Presente sus resultados con el efecto estimado, el error estándar y los valores p, comunicando claramente lo que significa el coeficiente de regresión.
- Incluya un gráfico con el informe. Una regresión lineal simple se puede mostrar como un gráfico con la función y la línea de regresión.
- Calcule el error midiendo la distancia de los valores y observados y pronosticados, elevando al cuadrado las distancias en cada valor de x y calculando su media.
Conclusión
Con el ejemplo de regresión lineal anterior, le brindamos una descripción general de cómo generar un modelo de regresión lineal simple, encontrar el coeficiente de regresión y calcular el error de la estimación. También mencionamos la relevancia de Python y R para el análisis y las estadísticas de datos predictivos. El conocimiento práctico de tales herramientas es crucial para seguir carreras en ciencia de datos y aprendizaje automático en la actualidad.
Si desea perfeccionar sus habilidades de programación, consulte el Programa de certificado avanzado en aprendizaje automático de IIT Madras y upGrad. El curso en línea también incluye estudios de casos, proyectos y sesiones de tutoría de expertos para llevar la orientación de la industria al proceso de capacitación.