Régression linéaire expliquée avec un exemple

Publié: 2021-10-13

La régression linéaire est l'un des algorithmes les plus courants pour établir des relations entre les variables d'un ensemble de données. Un modèle mathématique est un outil nécessaire aux data scientists pour effectuer une analyse prédictive. Ce blog vous renseignera sur le concept fondamental et discutera également d'un exemple de régression linéaire.

Table des matières

Que sont les modèles de régression ?

Un modèle de régression décrit la relation entre les variables de l'ensemble de données en ajustant une ligne aux données observées. Il s'agit d'une analyse mathématique qui trie les variables qui ont un impact et qui comptent le plus. Cela détermine également notre degré de certitude quant aux facteurs impliqués. Les deux types de variables sont :

  • Dépendant : Facteur que vous essayez de prédire ou de comprendre.
  • Indépendant : Facteurs que vous soupçonnez d'avoir un impact sur la variable dépendante.

Les modèles de régression sont utilisés lorsque la variable dépendante est quantitative. Il peut être binaire dans le cas d'une régression logistique. Mais dans ce blog, nous nous concentrerons principalement sur le modèle de régression linéaire où les deux variables sont quantitatives.

Supposons que vous disposiez de données sur les ventes mensuelles et les précipitations mensuelles moyennes des trois dernières années. Disons que vous avez tracé cette information sur un graphique. L'axe des ordonnées représente le nombre de ventes (variable dépendante) et l'axe des abscisses représente les précipitations totales. Chaque point sur le graphique montrerait combien il a plu au cours d'un mois particulier et les chiffres de vente correspondants.

Si vous jetez un autre coup d'œil aux données, vous remarquerez peut-être une tendance. Supposons que les ventes soient plus élevées les jours où il a plu davantage. Mais il serait difficile d'estimer combien vous vendriez généralement lorsqu'il pleuvait une certaine quantité, disons 3 ou 4 pouces. Vous pourriez obtenir un certain degré de certitude si vous dessiniez une ligne au milieu de tous les points de données sur le graphique.

De nos jours, Excel et les logiciels de statistiques comme SPSS, R ou STATA peuvent vous aider à tracer une ligne qui correspond le mieux aux données disponibles. En outre, vous pouvez également générer une formule expliquant la pente de la ligne.

Considérez cette formule pour l'exemple ci-dessus : Y = 200 + 3X. Il vous indique que vous avez vendu 200 unités alors qu'il n'a pas plu du tout (c'est-à-dire lorsque X=0). En supposant que les variables restent les mêmes au fur et à mesure que nous avançons, chaque pouce de pluie supplémentaire se traduirait par une vente moyenne de trois unités supplémentaires. Vous vendriez 203 unités s'il pleut 1 pouce, 206 unités s'il pleut 2 pouces, 209 pouces s'il pleut 3 pouces, et ainsi de suite.

En règle générale, la formule de la droite de régression comprend également un terme d'erreur (Y = 200 + 3 X + terme d'erreur). Il tient compte du fait que les prédicteurs indépendants ne sont pas toujours des prédicteurs parfaits des variables dépendantes. Et la ligne vous donne simplement une estimation basée sur les données disponibles. Plus le terme d'erreur est grand, moins votre ligne de régression sera certaine.

Bases de la régression linéaire

Un modèle de régression linéaire simple utilise une ligne droite pour estimer la relation entre deux variables quantitatives. Si vous avez plus d'une variable indépendante, vous utiliserez plutôt la régression linéaire multiple.

L'analyse de régression linéaire simple concerne deux choses. Tout d'abord, il vous indique la force de la relation entre les facteurs dépendants et indépendants des données historiques. Deuxièmement, il vous donne la valeur de la variable dépendante à une certaine valeur de la variable indépendante.

Considérez cet exemple de régression linéaire. Un chercheur en sciences sociales souhaitant savoir comment le revenu des individus affecte leur niveau de bonheur effectue une simple analyse de régression pour voir si une relation linéaire se produit. Le chercheur prend des valeurs quantitatives de la variable dépendante (bonheur) et de la variable indépendante (revenu) en sondant des personnes dans un lieu géographique particulier.

Par exemple, les données contiennent des chiffres sur les revenus et les niveaux de bonheur (classés sur une échelle de 1 à 10) de 500 personnes de l'État indien du Maharashtra. Le chercheur tracerait ensuite les points de données et ajusterait une ligne de régression pour savoir dans quelle mesure les revenus des répondants influencent leur bien-être.

L'analyse de régression linéaire est basée sur quelques hypothèses concernant les données. Il y a:

  • Linéarité de la relation entre la variable dépendante et la variable indépendante, c'est-à-dire que la ligne de meilleur ajustement est droite et non courbe.)
  • L'homogénéité de la variance, c'est-à-dire la taille de l'erreur dans la prédiction, ne change pas de manière significative entre les différentes valeurs de la variable indépendante.
  • Indépendance des observations dans l'ensemble de données, ne faisant référence à aucune relation cachée.
  • Normalité de la distribution des données pour la variable dépendante. Vous pouvez vérifier la même chose en utilisant la fonction hist() dans R.

Les mathématiques derrière la régression linéaire

y = c + ax est une équation standard où y est la sortie (que nous voulons estimer), x est la variable d'entrée (que nous connaissons), a est la pente de la droite et c est la constante.

Ici, la sortie varie linéairement en fonction de l'entrée. La pente détermine l'impact de x sur la valeur de y. La constante est la valeur de y lorsque x est nul.

Comprenons cela à travers un autre exemple de régression linéaire. Imaginez que vous êtes employé dans une entreprise automobile et que vous souhaitez étudier le marché indien des véhicules de tourisme. Disons que le PIB national influence les ventes de véhicules de tourisme. Pour mieux planifier l'entreprise, vous voudrez peut-être connaître l'équation linéaire du nombre de véhicules vendus dans le pays concernant le PIB

Pour cela, vous auriez besoin d'un échantillon de données pour les ventes annuelles de véhicules de tourisme et les chiffres du PIB pour chaque année. Vous découvrirez peut-être que le PIB de l'année en cours affecte les ventes de l'année suivante : quelle que soit l'année où le PIB était inférieur, les ventes de véhicules étaient inférieures l'année suivante.

Pour préparer ces données pour l'analyse de Machine Learning, vous auriez besoin de faire un peu plus de travail.

  • Veuillez commencer par l'équation y = c + ax, où y est le nombre de véhicules vendus au cours d'une année et x est le PIB de l'année précédente.
  • Pour découvrir c et an dans le problème ci-dessus, vous pouvez créer un modèle en utilisant Python.

Consultez ce tutoriel pour comprendre la méthode étape par étape

Si vous deviez effectuer une régression linéaire simple dans R, l'interprétation et la communication des résultats deviendraient beaucoup plus faciles.

Pour le même exemple de régression linéaire, changeons l'équation en y=B0 + B1x + e. Encore une fois, y est la variable dépendante et x est la variable indépendante ou connue. B0 est la constante ou l'ordonnée à l'origine, B1 est la pente du coefficient de régression et e est l'erreur de l'estimation.

Un logiciel statistique comme R peut trouver la ligne de meilleur ajustement à travers les données et rechercher le B1 qui minimise l'erreur totale du modèle.

Suivez ces étapes pour commencer :

  • Chargez l'ensemble de données sur les ventes de véhicules de tourisme dans l'environnement R.
  • Exécutez la commande pour générer un modèle linéaire qui décrit la relation entre les ventes de véhicules de tourisme et le PIB.
    • ventes.gdp.lm <- lm(gdp ~ ventes, données = ventes.données)
  • Utilisez la fonction summary() pour afficher les paramètres de modèle linéaire les plus importants sous forme de tableau.
    • résumé(sales.gdp.lm)

Remarque : La sortie contiendrait des résultats tels que des appels, des valeurs résiduelles et des coefficients. Le tableau 'Call' indique la formule utilisée. Les « Résidus » détaillent la médiane, les quartiles, les valeurs minimales et maximales pour indiquer dans quelle mesure le modèle correspond aux données réelles. La première ligne du tableau "Coefficients" estime l'ordonnée à l'origine et la deuxième ligne donne le coefficient de régression. Les colonnes de ce tableau ont des étiquettes comme Estimation, Std. Erreur, valeur t et valeur p.

Apprenez le cours d'apprentissage automatique des meilleures universités du monde. Gagnez des programmes de maîtrise, Executive PGP ou Advanced Certificate pour accélérer votre carrière.

  • Branchez la valeur (Interception) dans l'équation de régression pour prédire les valeurs des ventes sur la plage des chiffres du PIB.
  • Examinez la colonne (Estimation) pour connaître l'effet. Le coefficient de régression vous indiquerait de combien les ventes changent avec la variation du PIB.
  • Découvrez la variation de votre estimation de la relation entre les ventes et le PIB à partir de l'étiquette (Std. Error).
  • Regardez la statistique de test sous (valeur t) pour savoir si les résultats se sont produits par hasard. Plus la valeur t est grande, moins elle est probable.
  • Parcourez la colonne Pr(>|t|) ou les valeurs de p pour voir l'effet estimé du PIB sur les ventes si l'hypothèse nulle était vraie.
  • Présentez vos résultats avec l'effet estimé, l'erreur standard et les valeurs de p, en communiquant clairement ce que signifie le coefficient de régression.
  • Inclure un graphique avec le rapport. Une régression linéaire simple peut être affichée sous la forme d'un graphique avec la droite et la fonction de régression.
  • Calculez l'erreur en mesurant la distance des valeurs y observées et prédites, en mettant au carré les distances à chaque valeur de x et en calculant leur moyenne.

Conclusion

Avec l'exemple de régression linéaire ci-dessus, nous vous avons donné un aperçu de la génération d'un modèle de régression linéaire simple, de la recherche du coefficient de régression et du calcul de l'erreur de l'estimation. Nous avons également abordé la pertinence de Python et R pour l'analyse prédictive des données et les statistiques. La connaissance pratique de ces outils est cruciale pour poursuivre des carrières dans la science des données et l'apprentissage automatique aujourd'hui.

Si vous souhaitez perfectionner vos compétences en programmation, consultez le programme de certificat avancé en apprentissage automatique par IIT Madras et upGrad. Le cours en ligne comprend également des études de cas, des projets et des séances de mentorat d'experts pour apporter une orientation industrielle au processus de formation.

Améliorez votre carrière dans l'apprentissage automatique et l'intelligence artificielle

Postuler pour Postuler pour une maîtrise ès sciences en apprentissage automatique et intelligence artificielle de LJMU