Apprentissage par renforcement en ML : comment ça marche, modèles et types d'apprentissage

Publié: 2021-06-11

Table des matières

Qu'est-ce que l'apprentissage par renforcement ?

L'apprentissage par renforcement fait référence au processus de prise de décisions appropriées grâce à des modèles d'apprentissage automatique appropriés. Il est basé sur le processus de formation d'une méthode d'apprentissage automatique. Il s'agit d'une technique d'apprentissage automatique basée sur le feedback, dans laquelle un agent apprend à se comporter dans un environnement en observant ses erreurs et en effectuant les actions.

L'apprentissage par renforcement applique la méthode d'apprentissage via l'interaction et la rétroaction. Voici quelques-unes des terminologies utilisées dans l'apprentissage par renforcement :

  • Agent : C'est l'apprenant ou le décideur qui effectue des actions pour recevoir une récompense.
  • Environnement : C'est le scénario où un agent apprend et exécute des tâches futures.
  • Action : actions exécutées par l'agent.
  • Etat : situation actuelle
  • Politique : fonction de prise de décision d'un agent par laquelle l'agent décide de l'action future en fonction de l'état actuel.
  • Récompense : Rendement fourni par l'environnement à un agent pour l'exécution de chaque action.
  • Valeur : Par rapport à la récompense, c'est le rendement attendu à long terme avec une décote.
  • Fonction de valeur : indique la valeur d'un état, c'est-à-dire le montant total du retour.
  • Approximateur de fonction : Induire une fonction à partir d'exemples d'apprentissage.
    Modèle de l'environnement : c'est un modèle qui imite l'environnement réel pour prédire les inférences.
  • Méthodes basées sur des modèles : utilisées pour résoudre des modèles basés sur des armatures.
  • Valeur Q ou valeur d'action : similaire à la valeur mais les paramètres supplémentaires sont considérés comme l'action en cours.
  • Processus décisionnel de Markov : Un modèle probabiliste du problème de décision séquentielle.
  • Programmation dynamique : Classe de méthodes de résolution de problèmes de décision séquentielle.

    L'apprentissage par renforcement concerne principalement la manière dont les agents logiciels doivent agir dans un environnement. L'apprentissage basé sur les réseaux de neurones permet d'atteindre un objectif complexe.

Comment fonctionne l'apprentissage par renforcement ?

Un exemple d'apprentissage par renforcement est présenté ci-dessous pour montrer comment fonctionne l'apprentissage par renforcement.

  • Les chats ne comprennent aucune forme de langage et, par conséquent, une stratégie différente doit être suivie pour communiquer avec le chat.
  • Une situation est créée où le chat agit de diverses manières. Le chat est récompensé par du poisson si c'est le chemin souhaité. Par conséquent, le chat se comporte de la même manière chaque fois qu'il fait face à cette situation en attendant plus de nourriture en récompense.
  • Le scénario définit le processus d'apprentissage à partir d'expériences positives.
  • Enfin, le chat apprend aussi ce qu'il ne faut pas faire à travers des expériences négatives.

Cela conduit à l'explication suivante

  • Le chat agit en tant qu'agent car il est exposé à un environnement. Dans l'exemple mentionné ci-dessus, la maison est l'environnement. Les états pourraient être quelque chose comme le chat assis ou marchant.
  • L'agent effectue une action en passant d'un état à l'autre comme passer d'une position assise à une position de marche.
  • L'action est la réaction de l'agent. La politique comprend la méthode de sélection d'une action dans un état particulier tout en s'attendant à un meilleur résultat dans l'état futur.
  • La transition d'états pourrait fournir une récompense ou une pénalité.

Quelques points à noter dans l'apprentissage par renforcement

  • Un état initial d'entrée doit être fourni à partir duquel le modèle commencera.
  • De nombreux extrants possibles sont générés par des solutions variées à un problème particulier.
  • La formation de la méthode RL est basée sur l'entrée. Après la génération de la sortie, le modèle décidera de récompenser ou non le modèle. Par conséquent, le modèle continue de se former.
  • Le modèle continue d'apprendre en permanence.
  • La meilleure solution à un problème est décidée en fonction de la récompense maximale qu'il reçoit.

Algorithme d'apprentissage par renforcement

Il existe trois approches pour mettre en œuvre une méthode d'apprentissage par renforcement.

1. Basé sur la valeur

La méthode basée sur la valeur consiste à maximiser la fonction de valeur V(s). L'attente d'un retour à long terme de l'état actuel est attendue dans le cadre d'une politique. SARSA et Q Learning sont quelques-uns des algorithmes basés sur la valeur. Les approches basées sur la valeur sont assez stables car elles ne permettent pas de modéliser un environnement continu. Les deux algorithmes sont simples à mettre en œuvre, mais ils ne peuvent pas estimer les valeurs d'un état invisible.

2. Basé sur la politique

Ce type de méthode implique l'élaboration d'une politique qui aide à retourner une récompense maximale grâce à l'exécution de chaque action.

Il existe deux types de méthodes basées sur des règles :

  • Déterministe : cela signifie que dans n'importe quel état, la politique produit la même action.
  • Stochastique : une probabilité pour chaque action existe définie par l'équation

n{a\s) = P\A, = a\S, =S]

Les algorithmes basés sur la politique sont le gradient de politique de Monte Carlo (RENFORCE) et le gradient de politique déterministe (DPG). Les approches d'apprentissage basées sur des politiques génèrent des instabilités car elles souffrent d'une forte variance.

Un algorithme « acteur-critique » est développé grâce à une combinaison d'approches basées sur les valeurs et sur les politiques. La paramétrisation de la fonction de valeur (critique) et de la politique (acteur) permet une convergence stable grâce à une utilisation efficace des données de formation.

3. Basé sur un modèle

Un modèle virtuel est créé pour chaque environnement et l'agent apprend sur la base de ce modèle. La construction du modèle comprend les étapes d'échantillonnage des états, de prise d'actions et d'observation des récompenses. À chaque état dans un environnement, le modèle prédit l'état futur et la récompense attendue. Avec la disponibilité du modèle basé sur RL, un agent peut planifier les actions. L'agent obtient la capacité d'apprendre quand le processus de planification est entrelacé avec l'estimation de la politique.

L'apprentissage par renforcement vise à atteindre un objectif par l'exploration d'un agent dans un environnement inconnu. Une hypothèse de RL stipule que les objectifs peuvent être décrits comme LA maximisation des récompenses. L'agent doit être capable de tirer le maximum de récompense par la perturbation d'états sous forme d'actions. Les algorithmes RL peuvent être largement classés en modèles basés et sans modèle.

Modèles d'apprentissage en renforcement

1. Processus décisionnel de Markov

L'ensemble des paramètres utilisés dans un processus de décision de Markov sont

Ensemble d'actions-A

Ensemble d'états-S

Récompense-R

Politique-n

Valeur-V

Le processus de décision de Markov est l'approche mathématique pour cartographier une solution dans l'apprentissage par renforcement.

2. Apprentissage Q

Ce processus fournit des informations à l'agent indiquant l'action à effectuer. C'est une forme d'approche sans modèle. Les valeurs Q continuent de se mettre à jour, indiquant la valeur de faire une action "a" dans l'état "s".

Différence entre l'apprentissage par renforcement et l'apprentissage supervisé

L'apprentissage supervisé est un processus d'apprentissage automatique dans lequel un superviseur doit introduire des connaissances dans un algorithme d'apprentissage. La fonction principale du superviseur comprend la collecte des données de formation telles que des images, des clips audio, etc.

Alors que dans RL, l'ensemble de données d'entraînement comprend principalement l'ensemble de situations et d'actions. L'apprentissage par renforcement dans l'apprentissage automatique ne nécessite aucune forme de supervision. De plus, la combinaison de l'apprentissage par renforcement et de l'apprentissage en profondeur produit le sous-domaine de l'apprentissage par renforcement en profondeur.

Les principales différences entre RL et apprentissage supervisé sont présentées ci-dessous.

Apprentissage par renforcement Enseignement supervisé
Les décisions sont prises séquentiellement. La sortie du processus dépend de l'état de l'entrée actuelle. L'entrée suivante dépendra de la sortie de l'entrée précédente et ainsi de suite. La décision est prise sur l'entrée initiale ou sur l'entrée alimentée au début du processus.
Les décisions dépendent. Par conséquent, l'étiquetage est effectué sur des séquences de décisions dépendantes. Les décisions sont indépendantes les unes des autres. Par conséquent, l'étiquetage de toutes les décisions est effectué.
L'interaction avec l'environnement se produit dans RL. Aucune interaction avec l'environnement. Le processus fonctionne sur le jeu de données existant.
Le processus de prise de décision d'un RL est similaire au processus de prise de décision d'un cerveau humain. Le processus de prise de décision est similaire à la décision prise par un cerveau humain sous la supervision d'un guide.
Aucun jeu de données étiqueté. Ensemble de données étiqueté.
Une formation préalable n'est pas exigée de l'agent d'apprentissage. Une formation préalable est fournie pour la prédiction de sortie.
RL est mieux pris en charge avec l'IA, où il y a une prévalence d'interaction humaine. L'apprentissage supervisé est principalement exploité avec des applications ou des systèmes logiciels interactifs.
Exemple : Jeu d'échecs Exemple : Reconnaissance d'objets

Types de renfort

Il existe deux types d'apprentissage par renforcement

1. Positif

L'apprentissage par renforcement positif est défini comme un événement généré à partir d'un comportement spécifique. Cela a un impact positif sur l'agent car il augmente la force et la fréquence de l'apprentissage. En conséquence, les performances sont maximisées. Par conséquent, les changements sont maintenus pendant une plus longue période de temps. Mais, une optimisation excessive des états peut affecter les résultats de l'apprentissage. Par conséquent, l'apprentissage par renforcement ne devrait pas être excessif.

Les avantages du renforcement positif sont :

  • Maximisation des performances.
  • Changements soutenus pendant une période plus longue.

2. Négatif

Le renforcement négatif est défini lorsque, dans des circonstances de condition négative, le comportement est renforcé. La norme minimale de performance est définie par le renforcement négatif

Les avantages de l'apprentissage par renforcement négatif sont :

  • Augmente le comportement.
  • Faire fi d'une norme minimale de performance

Inconvénient de l'apprentissage par renforcement

  • Fournit juste assez pour répondre au comportement minimum.

Les défis de l'apprentissage par renforcement

L'apprentissage par renforcement, bien qu'il ne nécessite pas la supervision du modèle, n'est pas un type d'apprentissage non supervisé. Cependant, il s'agit d'une partie différente de l'apprentissage automatique.

Voici quelques défis associés à l'apprentissage par renforcement :

  • Préparation de l'environnement de simulation. Cela dépend de la tâche à effectuer. La création d'un simulateur réaliste est une tâche difficile. Le modèle doit comprendre chaque minute et chaque détail important de l'environnement.
  • L'implication de la conception des fonctionnalités et des récompenses est très importante.
  • La vitesse d'apprentissage peut être affectée par les paramètres.
  • Transfert du modèle dans l'environnement de formation.
  • Le contrôle de l'agent via les réseaux de neurones est un autre défi car la seule communication avec les réseaux de neurones passe par le système de récompenses et de pénalités. Parfois, cela peut entraîner un oubli catastrophique, c'est-à-dire la suppression d'anciennes connaissances tout en acquérant de nouvelles connaissances.
  • Atteindre un minimum local est un défi pour l'apprentissage par renforcement.
  • Dans les conditions d'un environnement réel, une observation partielle peut être présente.
  • L'application de l'apprentissage par renforcement devrait être réglementée. Une quantité excessive de RL conduit à la surcharge des états. Cela pourrait conduire à une diminution des résultats.
  • Les environnements réels sont non stationnaires.

Applications de renforcement

  • Dans le domaine de la robotique pour l'automatisation industrielle.
  • RL peut être utilisé dans la planification stratégique des entreprises.
  • RL peut être utilisé dans des techniques de traitement de données impliquant des algorithmes d'apprentissage automatique.
  • Il peut être utilisé pour la préparation personnalisée de supports de formation pour les étudiants en fonction de leurs besoins.
  • RL peut être appliqué dans le contrôle des avions et le mouvement des robots.

Dans les grands environnements, le renforcement peut être appliqué dans les situations suivantes

  • Si une solution analytique n'est pas disponible pour un modèle connu de l'environnement.
  • Si seulement un modèle de simulation de l'environnement est fourni.
  • Lorsqu'il n'y a qu'un seul moyen de collecter les données, c'est d'interagir avec l'environnement.

A quoi sert l'apprentissage par renforcement ?

  • L'apprentissage par renforcement aide à identifier la situation qui nécessite une action.
  • L'application de RL aide à savoir quelle action rapporte la plus grande récompense.
  • L'utilité de RL réside dans la fourniture à l'agent d'une fonction de récompense.
  • Enfin, le RL aide à identifier la méthode menant à des récompenses plus importantes.

Conclusion

RL ne peut pas être appliqué à toutes les situations. Il y a certaines limites à son utilisation.

  • La disponibilité de suffisamment de données permet l'utilisation d'une approche d'apprentissage supervisé plutôt qu'une méthode RL.
  • Le calcul de RL prend beaucoup de temps, en particulier dans les cas où un grand environnement est considéré.

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le programme Executive PG d'IIIT-B & upGrad en apprentissage automatique et IA, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT -B Statut d'anciens élèves, 5+ projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

À quoi ressemble l'avenir pour les métiers de l'apprentissage automatique ?

L'adoption de l'apprentissage automatique a rapidement augmenté dans différents secteurs verticaux de l'industrie aujourd'hui. En commençant par les secteurs de la finance et de l'investissement, en passant par le divertissement, les médias, l'automobile, la santé et les jeux, il est difficile de trouver une industrie qui n'utilise pas l'IA et l'apprentissage automatique aujourd'hui. Par conséquent, la portée des emplois d'apprentissage automatique est nettement plus élevée que celle de nombreux autres emplois technologiques. Selon les rapports de Gartner, d'ici la fin de l'année 2022, environ 2,3 millions d'emplois d'apprentissage automatique et d'IA seront sur le marché. De plus, la rémunération offerte aux professionnels dans ce domaine devrait également être nettement plus élevée, avec des salaires de départ allant de 9 lakhs INR par an.

Qu'est-ce qu'un cloud IA ?

Le cloud AI est un concept relativement nouveau que les organisations ont commencé à adopter récemment. Ce concept combine l'intelligence artificielle et le cloud computing et repose sur deux facteurs. Les logiciels et outils d'intelligence artificielle apportent une valeur ajoutée nouvelle et améliorée au cloud computing, qui joue désormais un rôle de plus en plus important dans l'adoption de l'intelligence artificielle. Le cloud AI comprend une infrastructure partagée pour des cas d'utilisation spécifiques qui sont exploités simultanément par divers projets et charges de travail. Le plus grand avantage du cloud IA est qu'il réunit avec succès du matériel IA et des logiciels open source pour fournir aux clients (entreprises) l'IA SaaS sur une configuration de cloud hybride.

Où l'algorithme d'apprentissage par renforcement est-il utilisé ?

Les algorithmes d'apprentissage par renforcement sont livrés avec diverses applications telles que la planification de la stratégie commerciale, la robotique pour l'automatisation des processus industriels, le contrôle des avions et le contrôle des mouvements robotiques, l'apprentissage automatique, le développement d'un système de formation personnalisé pour les étudiants, le traitement des données et bien plus encore. L'utilisation d'un algorithme d'apprentissage par renforcement est particulièrement efficace dans ces cas, car il peut facilement aider à découvrir les situations qui nécessitent réellement une action et les actions qui s'accompagnent des plus grandes récompenses sur une période. Cependant, l'apprentissage par renforcement ne doit pas être appliqué lorsqu'il existe suffisamment de données pour proposer une solution en utilisant une méthode d'apprentissage supervisé.