Comment effectuer une analyse de régression multiple ?

Publié: 2021-11-23

Dans l'analyse statistique, les modèles de régression sont principalement utilisés chaque fois que nécessaire pour développer des relations entre les variables considérées. La relation est établie en ajustant une ligne entre toutes les variables. Pour comprendre le comportement de la variable dépendante, des modèles de régression sont utilisés. Ils permettent à l'utilisateur de savoir comment les variables dépendantes changent avec le changement des variables indépendantes.

Les régressions linéaires multiples sont une de ces techniques qui nous aide à estimer la relation entre ces variables, c'est-à-dire les variables dépendantes et indépendantes. Cet article se concentrera sur la technique des régressions linéaires multiples et comment elle est réalisée.

Table des matières

Régressions linéaires multiples

Les régressions linéaires multiples sont une forme de technique statistique utilisée pour prédire les résultats de toute variable de réponse. L'un des objectifs de la technique est d'établir une relation linéaire entre les variables indépendantes et dépendantes. L'analyse de régression linéaire multiple est une forme d' analyse multivariée qui implique plus d'une forme d'observation.

La plupart du temps, la technique peut être réalisée si vous souhaitez connaître les éléments suivants :

  • Comprendre à quel point la relation entre les variables est forte. De plus, si vous voulez comprendre la relation entre les variables indépendantes et dépendantes, alors dans ces cas, nous pouvons utiliser la technique des régressions linéaires multiples.
  • La technique peut être utilisée pour prédire la valeur des variables dépendantes correspondant aux variables indépendantes.

Hypothèses considérées dans les régressions linéaires multiples

Certaines hypothèses sont considérées dans les techniques de régressions linéaires multiples. Voici quelques hypothèses répertoriées pour MLR :

1. Homogénéité de la variance

On parle aussi d'homoscédasticité. Cela signifie que lors de la prédiction d'un résultat, il n'y a pas de changements significatifs dans l'erreur associée à la prédiction du résultat à travers les valeurs des variables indépendantes. La méthode suppose que la quantité d'erreur est la même dans tout le modèle de MLR. L'analyste doit tracer les résidus qui sont normalisés par rapport aux valeurs prédites. Cela aide à déterminer s'il y a une répartition équitable des points entre les variables indépendantes. Un nuage de points peut être utilisé pour tracer les données.

2. Indépendance des observations

Les observations prises en compte dans la régression linéaire multiple sont recueillies au moyen de techniques statistiques valides. Cela signifie qu'il n'y a pas de relations cachées ou existantes entre les variables collectées. Parfois, dans cette technique, il existe des scénarios où certaines variables sont corrélées avec d'autres variables. Par conséquent, avant de développer le modèle de régression, il est toujours important de vérifier ces variables corrélées. Supprimer l'une des variables du développement du modèle est toujours préférable pour les variables qui présentent une forte corrélation.

3. Il n'y a pas de corrélation entre les variables indépendantes

D'une autre manière, on peut mentionner qu'il ne devrait pas y avoir de multicolinéarité dans les données. S'il y a présence d'une multicolinéarité, l'analyste aura du mal à identifier la variable contribuant à la variance de la variable dépendante. Par conséquent, l'une des méthodes considérées comme les meilleures pour tester l'hypothèse est la méthode du facteur d'inflation de variation.

4. Normalité :

Cela signifie que le jeu de données suit la distribution normale.

5. Linéarité

Lors de la recherche de la relation entre les variables, une ligne droite est tentée d'être ajustée entre les variables. Il est largement admis qu'il existe une relation linéaire entre les variables indépendantes et les variables dépendantes. Une façon de vérifier la relation linéaire consiste à créer des diagrammes de dispersion, puis à visualiser les diagrammes de dispersion. Il permet à l'utilisateur d'observer la linéarité existant dans les observations. S'il n'y a pas de relation linéaire, l'analyste doit répéter son analyse. Un logiciel statistique tel que SPSS peut être utilisé pour effectuer le MLR.

Représentation mathématique de la régression linéaire multiple

L'image mathématique d'un modèle de régression linéaire multiple est illustrée dans l'équation ci-dessous :

Dans l'équation ci-dessus,

  • Y représente la variable de sortie,
  • X représente les variables d'entrée,
  • Β représente le coefficient associé à chaque terme.
  • B0 est la valeur de l'ordonnée à l'origine, c'est-à-dire la valeur de Y lorsque tous les autres prédicteurs sont absents.

Parfois, l'équation de MLR consiste en un terme d'erreur représenté par le terme "e" à la fin des termes de l'équation.

Tout en trouvant le meilleur ajustement de la ligne, l'équation MLR est utilisée pour calculer les éléments suivants :

  • Calcul des coefficients de régression qui entraînent la moindre erreur dans l'équation MLR.
  • Pour le modèle global, l'équation calcule la valeur statistique t.
  • Valeur P du modèle.

Moindres carrés ordinaires

La méthode de régression linéaire multiple est également connue sous le nom de moindres carrés ordinaires (OLS). En effet, la méthode MLR tente de trouver la moindre somme des carrés. Par conséquent, également connue sous le nom de méthode OLS. Le langage de programmation python peut être utilisé pour implémenter ces méthodes. Les deux méthodes pouvant appliquer la méthode OLS en python sont :

1. SciKit Apprendre

Il s'agit d'un package disponible dans un langage de programmation Python. Les modules de régression linéaire sont à importer depuis le package de Scikit Learn. Le modèle est ensuite ajusté avec les données. C'est une méthode simple et qui peut être largement utilisée.

2. Modèles statistiques

L'une des autres méthodes utilisées dans le langage de programmation Python est le package de Statsmodels. Ce package peut aider à mettre en œuvre les techniques OLS.

Exemples de régressions linéaires multiples

Quelques-uns des exemples de MLR sont répertoriés ci-dessous :

  • Le modèle de régression linéaire multiple peut être utilisé pour la prédiction des rendements des cultures. En effet, dans MLR, il existe une association entre les variables dépendantes et indépendantes. Dans ces types d'études, des facteurs supplémentaires tels que les facteurs climatiques, les précipitations, le niveau d'engrais et la température peuvent être pris en compte.
  • Si un lien doit être établi entre le nombre d'heures d'une étude menée et la classe GPA, alors la méthode MLR peut être utilisée. Dans de tels cas, GPA sera la variable dépendante tandis que l'autre variable, comme les heures d'étude, sera la variable explicative.
  • La technique du MLR peut être utilisée pour déterminer le salaire du dirigeant dans une entreprise en fonction de l'expérience et de l'âge des dirigeants. Dans de tels cas, le salaire deviendra la variable dépendante, tandis que l'âge et l'expérience seront la variable indépendante.

Flux de travail du MLR

Les données doivent être préparées et analysées avant d'entrer dans le modèle de régression. Les données sont principalement analysées pour détecter la présence d'erreurs, de valeurs aberrantes, de valeurs manquantes, etc. Voici quelques étapes répertoriées pour vous montrer comment mettre en œuvre ou appliquer les techniques de régression linéaire multiple.

1. Choix des variables

Le MLR nécessite d'avoir un ensemble de données contenant les valeurs de prédicteur qui ont le plus de relation avec la variable de réponse. Cela signifie que le maximum d'informations doit être extrait d'un nombre minimum de variables. La sélection des variables peut être effectuée à partir des processus suivants.

  • Une procédure automatique peut être choisie pour la recherche des variables. Les outils peuvent être utilisés avec les packages de programmation R et Python pour décider des meilleures variables pour l'étude MLR.
  • La régression toutes possibles peut être choisie pour vérifier la présence de toutes les sous-parties de toutes les variables indépendantes.
  • La valeur de R2 peut être considérée pour analyser les meilleures variables. Les variables avec une valeur plus élevée de R2 sont considérées comme les mieux ajustées dans le modèle. Les valeurs du R2 peuvent être parmi les deux nombres, 0 et 1. La valeur 0 signifie qu'aucune des variables indépendantes ne peut prédire le résultat des variables dépendantes. La valeur de 1 signifie la prédiction par les variables indépendantes et sans erreurs.
  • Il existe également un autre terme qui est la somme des carrés prédite (PRESSp). Si le modèle de MLR a un PRESSp plus petit, alors le modèle est considéré comme ayant une meilleure force prédictive.

2. Raffinement du modèle

Le modèle de MLR peut être amélioré grâce à l'examen des critères suivants :

  • La valeur du test F global. Ceci est utilisé pour tester la signification de la prédiction du résultat de la variable dépendante par la variable indépendante.
  • R2 ajusté pour vérifier la variation de l'échantillon complet après ajustement des paramètres et de la taille de l'échantillon. La plus grande valeur du terme indique que les variables correspondent mieux aux données.
  • L'écart quadratique moyen ou RMSE est utilisé pour estimer l'écart type des erreurs aléatoires.
  • Le modèle de MLR est considéré comme donnant des prédictions précises si la valeur du coefficient de variation est de 10 % ou moins.

3. Tester les hypothèses du modèle

Les hypothèses considérées sont testées dans le modèle de régression linéaire. Ces hypothèses doivent être satisfaites.

4. Résolution des problèmes associés au modèle

Dans les cas où certaines des hypothèses prises en compte dans le modèle ne sont pas respectées, des mesures doivent être prises pour minimiser ces problèmes.

5. Validation du modèle

Il s'agit de la dernière étape de la génération du modèle MLR et est considérée comme importante. Après la génération du modèle, le modèle doit être validé. Une fois validé, il peut être utilisé pour toute analyse de régression linéaire multiple .

Conclusion

La régression linéaire multiple est l'une des techniques les plus largement utilisées dans toute étude de recherche pour établir la corrélation entre les variables. Il est également considéré comme un algorithme important dans le monde de l'apprentissage automatique. Cependant, si vous débutez dans l'analyse de régression, il est toujours préférable de se faire une idée des modèles de régression et des régressions linéaires simples.

Obtenez des cours d'apprentissage automatique des meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.

Améliorez votre carrière dans l'apprentissage automatique et l'intelligence artificielle

Postulez maintenant pour la certification exécutive en Ai-ml de l'IIITB