Régression logistique binaire : présentation, capacités et hypothèses
Publié: 2021-10-05L'une des définitions les plus acceptées de l'apprentissage automatique ressemble à ceci :
"On dit qu'un programme informatique apprend de l'expérience E par rapport à une classe de tâches T et à une mesure de performance P, si sa performance aux tâches dans T, mesurée par P, s'améliore avec l'expérience E."
Désormais, pour améliorer les performances de la machine dans le temps sur une même classe de tâches, différents algorithmes sont utilisés pour optimiser le rendement de la machine et le rapprocher des résultats souhaités. L'analyse de régression est l'une des techniques de base les plus utilisées pour amener la machine à améliorer ses performances.
Il consiste en un ensemble de techniques d'apprentissage automatique pour prédire une variable de sortie continue basée sur une ou plusieurs valeurs de variables prédictives. L'analyse de régression vise à développer une équation mathématique qui peut définir la variable continue en fonction de la variable prédictive.
Dans l'un de nos articles précédents, nous avons examiné la régression logistique et comment implémenter la régression logistique en Python. Nous avons également parlé brièvement des trois différents types de régressions logistiques dans l'apprentissage automatique. Dans cet article, nous allons vous donner une présentation légèrement détaillée de la régression logistique binaire ainsi que sa vue d'ensemble, ses capacités et ses hypothèses.
Table des matières
Présentation de la régression logistique binaire
La régression logistique binaire ou binomiale peut être comprise comme le type de régression logistique qui traite des scénarios dans lesquels les résultats observés pour les variables dépendantes ne peuvent être que binaires, c'est-à-dire qu'il ne peut y avoir que deux types possibles. Ces deux types de classes peuvent être 0 ou 1, réussir ou échouer, mort ou vivant, gagner ou perdre, etc.
La régression logistique multinomiale fonctionne dans des scénarios où le résultat peut avoir plus de deux types possibles - maladie A vs maladie B vs maladie C - qui ne sont pas dans un ordre particulier. Un autre type de régression logistique est la régression logistique ordinale qui traite les variables dépendantes de manière ordonnée.
Dans la régression logistique binaire, les sorties possibles sont généralement définies comme 0 ou 1, car cela se traduit par l'interprétation et la compréhension les plus simples du modèle de régression. Si un résultat particulier pour une variable dépendante est le résultat réussi ou remarquable, il est codé 0, et s'il est échec ou échec, il est codé 0.
En termes simples, la régression logistique binaire peut être utilisée pour prédire avec soin et précision les chances d'être un cas en fonction des valeurs des prédicteurs ou des variables indépendantes.
Capacités de la régression logistique binaire - Types de questions auxquelles elle peut répondre
Comme mentionné ci-dessus, la régression logistique binaire convient parfaitement aux scénarios dans lesquels la sortie peut appartenir à l'une des deux classes ou groupes. En conséquence, la régression logistique binaire est la mieux adaptée pour répondre aux questions de la nature suivante :
- La probabilité d'avoir un cancer change-t-elle pour chaque kg supplémentaire d'une personne en surpoids ?
- Cette probabilité varie-t-elle pour chaque paquet de cigarettes fumé par jour ?
- Le poids corporel, l'apport en graisses, l'apport calorique et l'âge influencent-ils la probabilité d'avoir une crise cardiaque ?
Comme vous pouvez le voir, les réponses aux trois questions ci-dessus peuvent être oui ou non, 0 ou 1. La régression logistique binaire peut donc être utilisée pour répondre précisément à ces questions.
Hypothèse majeure de la régression logistique binaire
Comme avec tout autre algorithme d'apprentissage automatique, la régression logistique binaire fonctionne également sur certaines hypothèses. Voici ceux :
- La variable dépendante est dichotomique. C'est-à-dire qu'il est présent ou absent mais jamais les deux à la fois.
- Il ne devrait y avoir aucune valeur aberrante dans les données.
- Il ne devrait pas y avoir de corrélation élevée ou de multicolinéarité entre les différents prédicteurs. Cela peut être évalué à l'aide d'une matrice de corrélation entre différents prédicteurs.
En conclusion
La régression logistique binaire est utile dans de nombreux cas d'utilisation de Machine Learning. Qu'il s'agisse de déterminer les défauts de paiement ou d'aider les entreprises à fidéliser leurs clients, la régression logistique binaire peut être étendue pour résoudre même les problèmes commerciaux les plus complexes. Cependant, vous devez vous rappeler qu'il ne s'agit que d'une des nombreuses techniques d'algorithmes d'apprentissage automatique. Une fois que vous avez maîtrisé l'analyse de régression, vous êtes sur la bonne voie pour traiter des sujets plus complexes et nuancés.
Si, toutefois, vous avez encore du mal à comprendre l'analyse de régression et à commencer votre parcours d'apprentissage automatique, nous vous recommandons notre liste de cours d'apprentissage automatique . Chez upGrad, nous avons une base d'apprenants dans plus de 85 pays, avec plus de 40 000 apprenants rémunérés dans le monde, et nos programmes ont touché plus de 500 000 professionnels en activité.
Notre Master of Science en apprentissage automatique et intelligence artificielle , proposé en collaboration avec l'Université John Moores de Liverpool, est conçu pour aider les apprenants à repartir de zéro et à acquérir suffisamment d'apprentissage pour travailler sur des projets réels. Notre assistance professionnelle à 360 degrés garantira que vous êtes parfaitement préparé pour assumer des rôles de premier plan dans l'industrie. Alors contactez-nous dès aujourd'hui et découvrez le pouvoir de l'apprentissage par les pairs et du réseautage mondial !
Les modèles statistiques bayésiens sont basés sur des procédures mathématiques et utilisent le concept de probabilité pour résoudre des problèmes statistiques. Ils fournissent des preuves permettant aux gens de s'appuyer sur de nouvelles données et de faire des prévisions basées sur les paramètres du modèle. C'est une technique utile en statistique dans laquelle nous nous appuyons sur de nouvelles données et informations pour mettre à jour la probabilité d'une hypothèse en utilisant le théorème de Bayes. Les modèles bayésiens sont uniques en ce sens que tous les paramètres d'un modèle statistique, qu'ils soient observés ou non observés, se voient attribuer une distribution de probabilité conjointe.A quoi sert le modèle statistique bayésien ?
Qu'est-ce que l'inférence bayésienne ?
Les modèles bayésiens sont-ils uniques ?