Dérivée de règle de chaîne dans l'apprentissage automatique : expliquée

Publié: 2021-06-30

L'apprentissage automatique a évolué pour devenir l'un des domaines les plus discutés et les plus étudiés ces dernières années, et pour toutes les bonnes raisons. De nouveaux modèles et applications d'apprentissage automatique sont découverts chaque jour, et les chercheurs du monde entier travaillent à la prochaine grande révolution.

En conséquence, les professionnels d'horizons divers ont manifesté un intérêt accru pour passer à l'apprentissage automatique et faire partie de cette révolution en cours. Si vous êtes un de ces passionnés d'apprentissage automatique qui cherchent à faire leurs premiers pas, disons que cela commence par comprendre les bases des mathématiques et des statistiques avant toute autre chose.

L'un de ces sujets vitaux en mathématiques qui est très pertinent pour l'apprentissage automatique est celui des dérivés. D'après votre compréhension de base du calcul, vous vous souviendrez que la dérivée de toute fonction est le taux de variation instantané de cette fonction. Dans ce blog, nous approfondirons les produits dérivés et explorerons la règle de la chaîne. Nous verrons comment la sortie d'une fonction particulière change lorsque nous modifions certaines variables indépendantes dans l'équation. Avec la connaissance des dérivées de règles de chaîne, vous serez en mesure de travailler sur la différenciation de fonctions plus complexes que vous êtes sûr de rencontrer dans l'apprentissage automatique.

Obtenez une certification Machine Learning en ligne auprès des meilleures universités du monde - Masters, Executive Post Graduate Programs et Advanced Certificate Program in ML & AI pour accélérer votre carrière.

Table des matières

Comprendre la dérivée de règle de chaîne

La règle de la chaîne est essentiellement une formule mathématique qui vous aide à calculer la dérivée d'une fonction composite. Une fonction composite est une fonction composée de deux fonctions ou plus. Donc, si f et g sont deux fonctions, alors la règle de la chaîne nous aiderait à trouver la dérivée de fonctions composites telles que fog ou go f.

Compte tenu du brouillard de la fonction composite , voici à quoi ressemblerait la dérivée de la règle de la chaîne :

La règle ci-dessus peut aussi s'écrire :

Où la fonction F est la composition de f et g , sous la forme f(g(x)).

Supposons maintenant que nous ayons trois variables telles que la troisième variable (z) dépende de la deuxième variable (y), qui à son tour dépend de la première variable (x). Dans ce cas, la dérivée de la règle de la chaîne ressemblerait à ceci :

En termes de deep learning, c'est aussi la formule régulièrement utilisée pour résoudre les problèmes de rétropropagation. Maintenant, puisque nous avons mentionné que z dépend de y et y de x, nous pouvons écrire z = f(y) et y = g(x). Cette substitution modifierait notre équation différentielle de la manière suivante :

Examinons maintenant quelques exemples de dérivées de règles en chaîne pour mieux comprendre les mathématiques qui les sous-tendent.

Exemples et applications de dérivée de règle de chaîne

Prenons un exemple bien connu de Wikipedia pour mieux comprendre la dérivée de la règle de la chaîne. Supposons que vous fassiez une chute libre du ciel. La pression atmosphérique que vous rencontrez pendant l'automne changera constamment. Voici un graphique qui trace ce changement de pression atmosphérique avec les niveaux d'élévation :

Supposons que votre chute ait commencé à 4000 mètres d'altitude. Au départ, votre vitesse était de zéro et la valeur d'accélération était de 9,8 mètres par seconde au carré en raison de la gravité.

Maintenant, comparons cette situation avec la méthode de règle de chaîne précédente. Dans cet exemple, nous utiliserons la variable 't' pour le temps au lieu de x.

Alors, la variable y = g(t), qui indique la distance parcourue depuis le début de la chute, peut être donnée par :

g(t) = 0,5*9,8t^2

Et, la hauteur à partir du niveau de la mer peut être donnée par une variable 'h', qui sera égale à 400-g(t).

Supposons que, sur la base d'un modèle, nous pouvons également écrire la fonction de la pression atmosphérique à n'importe quelle hauteur h comme :

f(h) = 101325 e−0,0001h

Maintenant, vous pouvez distinguer les deux équations en fonction de leurs variables dépendantes pour obtenir les résultats suivants :

g′(t) = −9.8t,

Ici, g'(t) indique la valeur de votre vitesse à tout instant t.

f′(h) = −10,1325e−0,0001h

Ici, f′(h) est le taux de variation de la pression atmosphérique par rapport à la hauteur h. Maintenant, la question est de savoir si nous pouvons combiner ces deux équations et dériver le taux de variation de la pression atmosphérique par rapport au temps ? Voyons en utilisant la règle de la chaîne :

L'équation finale que nous avons nous donne le taux de variation de la pression atmosphérique par rapport au temps écoulé depuis l'automne. En termes d'apprentissage automatique, les réseaux de neurones ont constamment besoin de mises à jour de poids concernant l'erreur de prédiction du neurone. La règle de la chaîne aide à ajuster ces pondérations et à rapprocher le modèle d'apprentissage automatique de la sortie correcte.

Conclusion

Comme vous pouvez le voir, la règle de la chaîne est bénéfique à de nombreuses fins. Surtout en ce qui concerne l'apprentissage automatique ou l'apprentissage en profondeur, la règle de la chaîne est très utile pour mettre à jour les poids des neurones et améliorer l'efficacité globale du modèle.

Maintenant que vous connaissez les bases de la règle de la chaîne, essayez quelques problèmes par vous-même. Recherchez quelques fonctions composites et essayez de trouver leurs dérivées. Plus vous pratiquerez, plus vos concepts deviendront clairs et plus il vous sera facile d'entraîner vos modèles d'apprentissage automatique ! Cela dit, si vous êtes un passionné de machine learning mais que vous avez du mal à faire vos premiers pas dans ce domaine, upGrad est là pour vous !

Notre programme Executive PG en Machine Learning & AI est proposé en collaboration avec l'IIIT-Bangalore et vous donne le choix entre six spécialisations pertinentes pour l'industrie. Le cours commence au niveau du sol et vous emmène au sommet tout en vous offrant un soutien individuel d'experts de l'industrie, un solide groupe d'étudiants et un soutien de carrière à 360 degrés.

Comment les gradients sont-ils utilisés dans l'apprentissage automatique ?

Le vecteur gradient est fréquemment utilisé dans les problèmes de classification et de régression. La descente de gradient est une sorte d'algorithme d'optimisation. La descente de gradient est largement utilisée dans les modèles d'apprentissage automatique pour identifier les paramètres optimaux qui minimisent la fonction de coût du modèle puisqu'elle a été développée pour trouver le minimum local d'une fonction différentielle.

A quoi sert l'utilisation des fonctions d'activation dans les réseaux de neurones ?

Le but d'une fonction d'activation est d'offrir une fonction dans un réseau de neurones avec des caractéristiques non linéaires. Un réseau neuronal artificiel doté d'une fonction d'activation est utilisé pour aider le réseau à comprendre des modèles complexes de données. Un réseau de neurones ne peut effectuer que des mappages linéaires des entrées aux sorties sans les fonctions d'activation, les produits scalaires entre un vecteur d'entrée et une matrice de pondération agissant comme l'opération mathématique lors de la propagation vers l'avant. En utilisant des fonctions d'activation, vous pouvez acquérir des prédictions fiables sur ce que le modèle peut créer.

Est-il important d'avoir une bonne connaissance du calcul pour l'apprentissage automatique ?

Le calcul est essentiel pour comprendre la dynamique interne des algorithmes d'apprentissage automatique comme la méthode de descente de gradient, qui minimise une fonction d'erreur basée sur le calcul du taux de variation. Si vous êtes débutant, vous n'avez pas besoin de comprendre toutes les idées derrière le calcul pour réussir dans l'apprentissage automatique. Vous pourriez vous débrouiller en ne connaissant que les principes de l'algèbre et du calcul, mais si vous êtes un scientifique des données et que vous voulez savoir ce qui se passe dans les coulisses de votre projet d'apprentissage automatique, vous devrez connaître les principes du calcul en profondeur. .