6 types d'apprentissage supervisé que vous devez connaître en 2022

Publié: 2021-01-10

L'apprentissage automatique est l'une des applications les plus courantes de l'intelligence artificielle. Une machine apprend à exécuter des tâches à partir des données qu'elle contient. Et avec l'expérience, ses performances dans une tâche donnée s'améliorent. L'apprentissage automatique comprend des techniques d'apprentissage supervisées, non supervisées et renforcées. En savoir plus sur les types d'apprentissage automatique.

Dans cet article, nous examinerons différents types d'apprentissage supervisé.

Table des matières

Qu'est-ce que l'apprentissage supervisé ?

Dans l'apprentissage supervisé, une machine est entraînée à l'aide de données « étiquetées ». Les jeux de données sont dits étiquetés lorsqu'ils contiennent à la fois des paramètres d'entrée et de sortie. En d'autres termes, les données ont déjà été étiquetées avec la bonne réponse.

Ainsi, la technique imite un environnement de classe où un étudiant apprend en présence d'un superviseur ou d'un enseignant. D'autre part, les algorithmes d'apprentissage non supervisé permettent aux modèles de découvrir des informations et d'apprendre par eux-mêmes.

L'apprentissage automatique supervisé est extrêmement utile pour résoudre les problèmes de calcul du monde réel. L'algorithme prédit les résultats pour les données imprévues en apprenant à partir des données d'apprentissage étiquetées. Par conséquent, il faut des data scientists hautement qualifiés pour construire et déployer de tels modèles. Au fil du temps, les scientifiques des données utilisent également leur expertise technique pour reconstruire les modèles afin de maintenir l'intégrité des informations fournies.

Comment ça marche?

Par exemple, vous souhaitez entraîner une machine à prédire votre temps de trajet entre votre bureau et votre domicile. Tout d'abord, vous créerez un ensemble de données étiquetées telles que la météo, l'heure de la journée, l'itinéraire choisi, etc. qui comprendra vos données d'entrée. Et le résultat serait la durée estimée de votre voyage de retour à la maison un jour précis.

Une fois que vous avez créé un ensemble d'entraînement basé sur des facteurs correspondants, la machine verrait les relations entre les points de données et l'utiliserait pour déterminer le temps qu'il vous faudra pour rentrer chez vous. Par exemple, une application mobile peut vous indiquer que votre temps de trajet sera plus long en cas de fortes pluies.

La machine peut également voir d'autres connexions dans vos données étiquetées, comme l'heure à laquelle vous quittez le travail. Vous pouvez arriver plus tôt à la maison si vous commencez avant que le trafic aux heures de pointe n'atteigne les routes. En savoir plus si vous êtes curieux de savoir comment fonctionne l'apprentissage automatique non supervisé.

Essayons maintenant de comprendre l'apprentissage supervisé à l'aide d'un autre exemple concret. Supposons que vous ayez une corbeille de fruits et que vous entraîniez la machine avec toutes sortes de fruits. Les données d'entraînement peuvent inclure ces scénarios :

  • Si l'objet est de couleur rouge, de forme ronde et présente une dépression sur le dessus, étiquetez-le comme "Pomme".
  • Si l'article a une couleur jaune verdâtre et a la forme d'un cylindre incurvé, marquez-le comme "Banane"

Ensuite, vous donnez un nouvel objet (données de test) et demandez à la machine d'identifier s'il s'agit d'une banane ou d'une pomme. Il apprendra des données de formation et appliquera les connaissances pour classer les fruits en fonction des couleurs et des formes saisies.

Différents types d'apprentissage supervisé

1. Régression

Dans la régression, une seule valeur de sortie est produite à l'aide de données d'apprentissage. Cette valeur est une interprétation probabiliste, qui est vérifiée après examen de la force de la corrélation entre les variables d'entrée. Par exemple, la régression peut aider à prédire le prix d'une maison en fonction de sa localité, de sa taille, etc.

Dans la régression logistique, la sortie a des valeurs discrètes basées sur un ensemble de variables indépendantes. Cette méthode peut échouer lorsqu'il s'agit de limites de décision non linéaires et multiples. En outre, il n'est pas suffisamment flexible pour capturer des relations complexes dans des ensembles de données.

2. Classement

Il s'agit de regrouper les données en classes. Si vous envisagez d'accorder un crédit à une personne, vous pouvez utiliser la classification pour déterminer si oui ou non une personne serait un défaut de paiement. Lorsque l'algorithme d'apprentissage supervisé étiquette les données d'entrée en deux classes distinctes, on parle de classification binaire. Les classifications multiples signifient la catégorisation des données en plus de deux classes.

3. Modèle bayésien naïf

Le modèle bayésien de classification est utilisé pour les grands ensembles de données finis. Il s'agit d'une méthode d'attribution d'étiquettes de classe à l'aide d'un graphe acyclique direct. Le graphe comprend un nœud parent et plusieurs nœuds enfants. Et chaque nœud enfant est supposé être indépendant et séparé du parent.

Arbres de décision

Un arbre de décision est un modèle de type organigramme qui contient des instructions de contrôle conditionnelles, comprenant des décisions et leurs conséquences probables. La sortie concerne l'étiquetage des données imprévues.

Dans la représentation arborescente, les nœuds feuilles correspondent aux étiquettes de classe et les nœuds internes représentent les attributs. Un arbre de décision peut être utilisé pour résoudre des problèmes avec des attributs discrets ainsi que des fonctions booléennes. Certains des algorithmes d'arbre de décision notables sont ID3 et CART.

4. Modèle de forêt aléatoire

Le modèle de forêt aléatoire est une méthode d'ensemble. Il fonctionne en construisant une multitude d'arbres de décision et produit une classification des arbres individuels. Supposons que vous souhaitiez prédire quels étudiants de premier cycle obtiendront de bons résultats au GMAT - un test passé pour être admis dans des programmes de gestion des cycles supérieurs. Un modèle de forêt aléatoire accomplirait la tâche, étant donné les facteurs démographiques et éducatifs d'un ensemble d'étudiants qui ont déjà passé le test.

5. Réseaux de neurones

Cet algorithme est conçu pour regrouper les entrées brutes, reconnaître des modèles ou interpréter des données sensorielles. Malgré leurs multiples avantages, les réseaux de neurones nécessitent des ressources de calcul importantes. Il peut devenir compliqué d'adapter un réseau de neurones lorsqu'il y a des milliers d'observations. On l'appelle également l'algorithme de la "boîte noire", car l'interprétation de la logique derrière leurs prédictions peut être difficile.

Lire : Top 10 des architectures de réseaux de neurones en 2020

6. Soutenir les machines vectorielles

Support Vector Machine (SVM) est un algorithme d'apprentissage supervisé développé en 1990. Il s'inspire de la théorie de l'apprentissage statistique développée par Vap Nick.

SVM sépare les hyperplans, ce qui en fait un classificateur discriminant. La sortie est produite sous la forme d'un hyperplan optimal qui catégorise de nouveaux exemples. Les SVM sont étroitement liées au framework du noyau et utilisées dans divers domaines. Certains exemples incluent la bioinformatique, la reconnaissance de formes et la recherche d'informations multimédias.

Avantages et inconvénients de l'apprentissage supervisé

Plusieurs types d'apprentissage supervisé vous permettent de collecter et de produire des données à partir d'expériences antérieures. De l'optimisation des critères de performance au traitement des problèmes du monde réel, l'apprentissage supervisé est devenu un outil puissant dans le domaine de l'IA. Il s'agit également d'une méthode plus fiable que l'apprentissage non supervisé, qui peut être complexe sur le plan informatique et moins précis dans certains cas.

Cependant, l'apprentissage supervisé n'est pas sans limites. Des exemples concrets sont nécessaires pour la formation des classificateurs, et les limites de décision peuvent être surentraînées en l'absence des bons exemples. On peut également rencontrer des difficultés dans la classification des mégadonnées.

Résumé

Le long et court de l'apprentissage supervisé est qu'il utilise des données étiquetées pour former une machine. Les techniques de régression et les algorithmes de classification permettent de développer des modèles prédictifs hautement fiables et ayant de multiples applications.

L'apprentissage supervisé nécessite des experts pour créer, mettre à l'échelle et mettre à jour des modèles. En l'absence de compétence technique, la force brute peut être appliquée pour déterminer les variables d'entrée. Et cela pourrait rendre des résultats inexacts. Ainsi, la sélection de caractéristiques de données pertinentes est essentielle pour que l'apprentissage supervisé fonctionne efficacement.

Il faut d'abord décider quelles données sont nécessaires pour l'ensemble d'apprentissage, continuer à structurer la fonction et l'algorithme appris, et également assembler les résultats des experts et des mesures. Ces meilleures pratiques peuvent grandement contribuer à soutenir la précision d'un modèle.

Alors que l'intelligence artificielle et l'apprentissage automatique s'accélèrent dans le monde actuel axé sur la technologie, la connaissance des types d'apprentissage supervisé peut être un facteur de différenciation important dans n'importe quel domaine. Les explications ci-dessus vous aideront à faire ce premier pas !

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Apprenez le cours ML des meilleures universités du monde. Gagnez des programmes de maîtrise, Executive PGP ou Advanced Certificate pour accélérer votre carrière.

Quelle est la signification de l'apprentissage supervisé?

Une machine apprend à l'aide de données « étiquetées » dans l'apprentissage supervisé. Lorsqu'un jeu de données a à la fois des paramètres d'entrée et de sortie, il est considéré comme étiqueté. Autrement dit, l'information a déjà été étiquetée avec la bonne réponse. Dans les défis informatiques du monde réel, l'apprentissage automatique supervisé est très utile. Le système apprend des données de formation étiquetées pour prédire les résultats des données imprévues. Par conséquent, la construction et le déploiement de tels modèles nécessitent l'expertise de data scientists hautement qualifiés. Les scientifiques des données utilisent leurs connaissances techniques pour construire des modèles au fil du temps afin de maintenir la validité des informations fournies.

Quelle est la différence entre classification et régression ?

À l'aide des données d'apprentissage, la régression produit une valeur de sortie unique. Il s'agit d'une interprétation probabiliste qui est déterminée en tenant compte de la force de la corrélation entre les variables d'entrée. La régression, par exemple, peut aider à prévoir le prix d'une maison en fonction de son emplacement, de sa taille et d'autres facteurs. L'acte de classer les données implique de les diviser en catégories. Vous pouvez utiliser la catégorisation pour évaluer si une personne fera défaut ou non sur un prêt si vous envisagez de lui offrir un crédit. La classification binaire se produit lorsqu'un algorithme d'apprentissage supervisé classe les données d'entrée en deux classes distinctes. Les classifications multiples font référence à la division des informations en plus de deux groupes.

Qu'est-ce qu'une forêt aléatoire ?

Une méthode d'ensemble est le modèle de forêt aléatoire. Il fonctionne en créant un grand nombre d'arbres de décision, puis en classant les arbres individuels. Disons que vous voulez savoir quels étudiants universitaires réussiront bien au GMAT, un examen requis pour accéder aux programmes de gestion des cycles supérieurs. Compte tenu des caractéristiques démographiques et éducatives d'un groupe d'étudiants qui ont déjà passé le test, un modèle de forêt aléatoire pourrait compléter la tâche.