Algorithme de rétropropagation - Un aperçu

Publié: 2021-10-15

Les réseaux de neurones sont le mot le plus tendance dans le monde de la technologie de l'IA. Et quand on parle de réseaux de neurones, la rétro-propagation est un mot sur lequel il faut se concentrer. L'algorithme de rétropropagation est l'un des blocs fondamentaux du réseau de neurones. Comme tout réseau de neurones doit être formé pour l'exécution de la tâche, la rétropropagation est un algorithme utilisé pour la formation du réseau de neurones. Il s'agit d'une forme d'algorithme d'apprentissage supervisé qui est utilisé pour former des perceptrons de plusieurs couches dans un réseau de neurones artificiels.

La programmation typique est considérée là où les données sont insérées et la logique de la programmation est exécutée. Pendant que le traitement est effectué, la sortie est reçue par l'utilisateur. Mais, cette sortie, d'une certaine manière, peut influencer la logique de la programmation. C'est ce que fait l'algorithme de rétropropagation. La sortie influencera la logique et se traduira par une meilleure sortie.

L'article se concentrera sur l'algorithme de rétropropagation et son processus de fonctionnement.

Table des matières

Importance de la rétropropagation

L'importance de la rétropropagation réside dans son utilisation dans les réseaux de neurones. La conception de réseaux de neurones nécessite que les poids soient initialisés au début seulement. Ces poids sont des valeurs aléatoires ou des variables aléatoires qui sont considérées pour initialiser les poids. Étant donné que les poids sont insérés de manière aléatoire, il est possible que les poids ne soient pas les bons. Cela signifie que les poids ne correspondent pas au modèle. La sortie du modèle peut être différente de la sortie attendue. Il en résulte une valeur d'erreur élevée. Mais, il est toujours important de réduire l'erreur, et penser à des moyens de réduire l'erreur est un défi. Le modèle doit être formé pour que chaque fois que ces types de scénarios se produisent, il doive modifier les paramètres en conséquence. Et avec le changement des paramètres, la valeur d'erreur sera réduite.

Par conséquent, la formation du modèle est nécessaire, et la rétropropagation est l'un des moyens par lesquels un modèle peut être formé afin qu'il y ait des valeurs d'erreur minimales.

Quelques étapes de l' algorithme de rétropropagation dans les réseaux de neurones peuvent être résumées ci-dessous :

● Calcul d'erreur : Il calculera l'écart entre la sortie du modèle et la sortie réelle du modèle.

● Erreur minimale : Dans cette étape, il sera vérifié si l'erreur générée est minimisée ou non.

● Mise à jour des paramètres : L'étape est destinée à mettre à jour les paramètres du modèle. Si le modèle génère une valeur d'erreur très élevée, il doit alors mettre à jour ses paramètres,

tels que les poids et les biais. Le modèle est revérifié pour l'erreur, et le processus est répété jusqu'à ce que l'erreur générée soit minimisée.

● Modèle final : après un processus répété de vérification et de mise à jour, l'erreur est minimisée et le modèle est maintenant prêt pour les entrées. Les entrées peuvent être introduites dans le modèle et les sorties du modèle peuvent être analysées.

Le réseau de neurones à rétropropagation

Dans tout réseau de neurones, l' algorithme de rétropropagation recherche la valeur minimale d'erreur. Cela se fait par la technique de descente de gradient ou la règle delta, à travers laquelle la fonction d'erreur minimale est recherchée à partir de l'espace des poids. Une fois les poids identifiés qui réduisent la fonction d'erreur, celle-ci est considérée comme la solution du problème d'apprentissage. Dans les années 1960, lorsque l'algorithme a été introduit pour la première fois, puis dans les années suivantes, la popularité de l'algorithme a augmenté. Le réseau de neurones peut être efficacement formé grâce à cet algorithme en utilisant une méthode de la règle de la chaîne. S'il y a un passage vers l'avant à travers le réseau de neurones, alors un passage vers l'arrière est effectué par le paramètre du modèle grâce à son ajustement des paramètres tels que les biais et les poids. Pour que l'algorithme de rétropropagation fonctionne, le réseau de neurones doit d'abord être défini.

Le modèle de réseau de neurones

Si un modèle à 4 couches du réseau neuronal est considéré, alors il sera composé des couches ; la couche d'entrée, 4 neurones conçus pour les couches cachées, et il y aura 1 neurone conçu pour la couche de sortie.

Couche d'entrée : la couche d'entrée peut être simple ou complexe. Une couche d'entrée simple contiendra les scalaires, et une couche d'entrée complexe, sera constituée de matrices multidimensionnelles ou vectorielles. Les premiers ensembles d'activation sont considérés comme égaux aux valeurs d'entrée.

Par le terme activation, on entend la valeur du neurone qui résulte après l'application de la fonction d'activation.

Couches cachées : Utilisation de certaines entrées pondérées telles que z^l dans les couches l, et les activations a^l dans la même couche l. Des équations sont générées pour ces couches telles que la couche 2 et la couche 3.

Les activations pour les couches sont calculées à l'aide de la fonction d'activation f. La fonction d'activation « f », est une fonction non linéaire qui permet l'apprentissage de motifs complexes présents dans les données par le réseau.

Une matrice de poids est formée ayant une forme de (n,m), où le nombre "n" désigne les neurones de sortie, tandis que le "m" désigne les neurones d'entrée du réseau de neurones. Dans le modèle des couches mentionnées ci-dessus, le nombre de n sera 2 et le nombre de m sera 4. De plus, le premier nombre dans l'indice du poids doit correspondre à l'indice du neurone qui se trouve dans la couche suivante. Le deuxième nombre doit correspondre à l'indice neuronal de la couche précédente du réseau.

Couche de sortie : La couche de sortie est la dernière couche du réseau de neurones. Il prédit la valeur du modèle. Une représentation matricielle est utilisée pour la simplification de l'équation.

Propagation en avant du réseau de neurones et son évaluation

Les équations générées lors de la définition du réseau de neurones constituent la propagation vers l'avant du réseau. Il prédit la sortie du modèle. Dans un algorithme de propagation vers l'avant, la dernière étape impliquée est l'évaluation de la sortie prédite par rapport à la sortie attendue. Si la sortie prédite est « s » et la sortie attendue est « y », alors s doit être évalué par rapport à y. Pour l'ensemble de données d'apprentissage (x,y), x est l'entrée et y est la sortie.

Une fonction de coût "C" est utilisée pour l'évaluation de s par rapport à y. La fonction de coût peut être simple, comme l'erreur quadratique moyenne (MSE), ou complexe, comme l'entropie croisée. Sur la base de la valeur du C, le modèle apprend à quel point les paramètres doivent être ajustés pour se rapprocher de la sortie attendue, qui est y. Cela se fait par l'algorithme de rétropropagation.

Algorithme de rétropropagation

L' algorithme de rétropropagation effectue à plusieurs reprises l'ajustement des poids dans les connexions réseau afin de minimiser la différence entre les sorties du modèle et la sortie attendue. C'est également dans l'algorithme de rétropropagation que de nouvelles fonctionnalités utiles peuvent être créées dans le réseau.

L'algorithme de rétropropagation vise également à diminuer ou à minimiser la fonction de coût définie du réseau, c'est-à-dire C. Cela se fait par l'ajustement de paramètres tels que les biais et les poids. Cet ajustement à effectuer dans les paramètres est déterminé par les gradients des fonctions de coût par rapport à tous ces paramètres.

Le gradient de la fonction C au point x est défini comme le vecteur de toutes les dérivées partielles qui se trouvent dans la fonction de coût C en x.

La sensibilité au changement de valeur d'une fonction est mesurée par la dérivée de la fonction C par rapport au changement d'argument x. Cela signifie que c'est la dérivée qui indique où la fonction de coût C se déplace.

La variation du paramètre x est définie par le gradient. Il montre les changements qui sont nécessaires dans le paramètre x pour minimiser C. La règle de la chaîne est utilisée pour calculer les gradients. C'est le gradient qui permet l'optimisation des paramètres.

C'est ainsi que l'algorithme de rétropropagation fonctionne dans l'amélioration et l'entraînement du réseau de neurones. Il sert à être une partie importante des aspects d'apprentissage automatique. Étant une partie essentielle de la formation du réseau de neurones, la compréhension de l'algorithme de rétropropagation est essentielle. Si vous souhaitez devenir un expert en apprentissage automatique et en intelligence artificielle, vous pouvez consulter le cours "Master of Science in Machine Learning & Artificial Intelligence" proposé par upGrad. Tous les professionnels en activité sont éligibles au cours. Vous serez formé par des facultés expertes de IIIT Bangalore et également de LJMU. L'apprentissage du contenu de plus de 650 heures vous aidera à vous préparer pour l'avenir de l'IA. Toutes les questions concernant le cours sont les bienvenues.

Quelle est la méthode utilisée dans l'algorithme de rétropropagation ?

La méthode utilisée dans l'algorithme de rétropropagation est la règle de la chaîne.

Pourquoi l'algorithme de rétropropagation est-il utilisé ?

L'algorithme de rétropropagation est utilisé pour minimiser l'erreur du modèle.

Comment l'algorithme de rétropropagation minimise-t-il l'erreur du réseau ?

L'algorithme de rétropropagation essaie d'ajuster les paramètres en conséquence, ce qui entraîne la minimisation de l'erreur.