Tout ce que vous devez savoir sur la fonction d'activation en ML

Publié: 2022-11-08

Table des matières

Qu'est-ce que la fonction d'activation dans l'apprentissage automatique ?
Calques masqués
Couches de sortie
- 1. Fonction d'étape binaire
- 2. Fonction linéaire
Meilleurs cours d'apprentissage automatique et cours d'IA en ligne
- 3. Fonction non linéaire
  - ReLU
  - Différentes modifications de ReLU –
  - ReLU qui fuit
  - ReLU paramétrique
  - GeLU (unité linéaire d'erreur gaussienne)
  - ELU (unité linéaire exponentielle)
  - Bruissement
Compétences en apprentissage automatique en demande
- 4. Fonction d'activation Softmax
- 5. Sigmoïde
Blogs populaires sur l'apprentissage automatique et l'intelligence artificielle
- 6. Tanh - Fonction d'activation de tangente hyperbolique
Démarrez votre carrière en machine learning avec le bon cours
Conclusion
Comment pouvez-vous décider quelle fonction d'activation est la meilleure ?
La fonction d'activation doit-elle être linéaire ou non linéaire ?
Quelle fonction d'activation peut être apprise facilement ?

Qu'est-ce que la fonction d'activation dans l'apprentissage automatique ?

Les fonctions d'activation du Machine Learning s'avèrent être des éléments cruciaux dans un modèle ML comprenant tous ses poids et biais. Ils sont un sujet de recherche en constante évolution et ont joué un rôle important dans la concrétisation de la formation Deep Neural Network. Essentiellement, ils déterminent la décision de stimuler un neurone. Si l'information reçue par un neurone est pertinente par rapport à l'information déjà présente ou si elle doit être ignorée. La modification non linéaire que nous appliquons au signal d'entrée s'appelle la fonction d'activation. La couche suivante de neurones reçoit cette sortie modifiée en entrée.

Étant donné que les fonctions d'activation effectuent des calculs non linéaires sur l'entrée d'un réseau de neurones, elles lui permettent d'apprendre et d'effectuer des tâches plus compliquées sans elles, ce qui est essentiellement un modèle de régression linéaire dans Machine Learning.

Il est essentiel de comprendre les applications des fonctions d'activation et de peser les avantages et les inconvénients de chaque fonction d'activation pour sélectionner le type approprié de fonction d'activation qui peut offrir non-linéarité et précision dans un modèle de réseau neuronal particulier.

Inscrivez-vous au cours d'apprentissage automatique des meilleures universités du monde. Gagnez des programmes de maîtrise, Executive PGP ou Advanced Certificate pour accélérer votre carrière.

Les modèles de fonction d'activation de Machine Learning sont essentiellement de deux types -

Calques masqués
Couches de sortie

Calques masqués

Les fonctions d'activation utilisées dans les couches cachées des modèles neuronaux ont pour rôle principal de fournir la non-linéarité dont les réseaux neuronaux ont besoin pour simuler les interactions non linéaires.

Couches de sortie

Les méthodes d'activation employées par les couches de sortie des modèles d'apprentissage automatique ont un objectif principal particulier : compresser la valeur dans une plage restreinte, telle que 0 à 1.

Comprenons d'abord les différents types de fonctions d'activation dans l'apprentissage automatique -

1. Fonction d'étape binaire

Un classificateur à seuil, qui détermine si le neurone doit être engagé ou non, est la première chose qui nous vient à l'esprit lorsque nous avons une fonction d'activation. Le neurone est déclenché si la valeur Y est supérieure à une valeur seuil déterminée ; sinon, il est laissé en sommeil.

Il est souvent défini comme –

f(x) = 1, x>=0

f(x) = 0, x<0

La fonction binaire est simple. Il est applicable lors du développement d'un classifieur binaire. Des évaluations sont nécessaires, qui sont les options idéales lorsqu'il suffit de répondre oui ou non pour une seule classe puisqu'elles allument le neurone ou le laissent à zéro.

2. Fonction linéaire

Une pente positive peut entraîner une augmentation de la cadence de tir à mesure que la cadence d'entrée augmente. Les fonctions d'activation linéaire sont supérieures pour fournir une large gamme d'activations.

La fonction est précisément proportionnelle à la combinaison pondérée de neurones ou d'entrée dans notre simple fonction d'activation horizontale.

Un neurone peut s'activer ou non en binaire. Vous remarquerez peut-être que la dérivée de cette fonction est constante si vous êtes familier avec la descente de gradient dans l'apprentissage automatique.

Meilleurs cours d'apprentissage automatique et cours d'IA en ligne

Master of Science en apprentissage automatique et IA de LJMU		Programme de troisième cycle exécutif en apprentissage automatique et IA de l'IIITB
Programme de certificat avancé en apprentissage automatique et PNL de l'IIITB	Programme de certificat avancé en apprentissage automatique et apprentissage en profondeur de l'IIITB	Programme exécutif de troisième cycle en science des données et apprentissage automatique de l'Université du Maryland
Pour explorer tous nos cours, visitez notre page ci-dessous.
Cours d'apprentissage automatique

3. Fonction non linéaire

ReLU

En termes de fonctions d'activation, l'Unité Linéaire Rectifiée est la meilleure. Il s'agit de la fonction d'activation la plus populaire et par défaut pour la plupart des problèmes. Lorsqu'elle est négative, elle est confinée à 0, alors que lorsqu'elle devient positive, elle est illimitée. Un réseau neuronal profond peut bénéficier de la régularisation intrinsèque créée par cette combinaison de délimitation et d'illimitation. La régularisation crée une représentation clairsemée qui rend la formation et l'inférence efficaces sur le plan informatique.

L'illimité positif maintient la simplicité de calcul tout en accélérant la convergence de la régression linéaire. ReLU n'a qu'un seul inconvénient majeur : les neurones morts. Certains neurones morts se sont éteints au début de la phase d'entraînement et liés négativement à 0 ne se réactivent jamais. Étant donné que la fonction passe rapidement d'illimitée lorsque x > 0 à bornée lorsque x ≤ 0, elle ne peut pas être continuellement différenciée. Cependant, en pratique, cela peut être surmonté sans effets durables sur les performances s'il y a un faible taux d'apprentissage et un biais négatif important.

Avantages:

ReLU nécessite moins de processus mathématiques que d'autres fonctions non linéaires, ce qui le rend moins coûteux en calcul et linéaire.
Il prévient et corrige le problème du dégradé de disparition.

Utilisation:

Utilisé dans RNN, CNN et d'autres modèles d'apprentissage automatique.

Différentes modifications de ReLU –

ReLU qui fuit

Une meilleure variante de la fonction ReLU est la fonction Leaky ReLU. Étant donné que le gradient de la fonction ReLU est de 0, où x <0, les activations dans cette région ont conduit les neurones à mourir, et ReLU qui fuit s'avère être le plus bénéfique pour résoudre ces problèmes. Nous définissons la fonction ReLU comme une petite composante linéaire de x plutôt que comme 0, où x<0.

Cela peut être vu comme -

f(x)=ax, x<0

f(x)=x, x>=0

Avantages -

Leaky ReLU, qui a une petite pente négative, était une tentative de résoudre le problème du "ReLU mourant" (de 0,01 environ).

Utilisation -

Utilisé dans les tâches qui impliquent des gradients tels que GAN.

ReLU paramétrique

Il s'agit d'une amélioration par rapport à Leaky ReLU, où le multiple scalaire est formé sur les données plutôt que d'être sélectionné au hasard. Étant donné que le modèle a été formé à l'aide de données, il est sensible au paramètre de mise à l'échelle (a) et il compte différemment selon la valeur de a.

Utilisation -

Lorsque le Leaky ReLU échoue, un ReLU paramétrique peut être utilisé pour résoudre le problème des neurones morts.

GeLU (unité linéaire d'erreur gaussienne)

Le plus récent enfant sur le bloc et incontestablement le vainqueur des tâches liées au NLP (Natural Language Processing) est l'unité linéaire d'erreur gaussienne, qui est utilisée dans les systèmes à base de transformateurs et les algorithmes SOTA tels que GPT-3 et BERT. GeLU combine ReLU, Zone Out et Dropout (qui met à zéro de manière aléatoire les neurones pour un réseau clairsemé). ReLU est rendu plus fluide avec le GeLU car il pondère les entrées par centile plutôt que par les portes.

Utilisation -

Vision par ordinateur, PNL, reconnaissance vocale

ELU (unité linéaire exponentielle)

L'ELU introduite en 2015 est positivement illimitée et utilise une courbe logarithmique pour les valeurs négatives. Par rapport à Leaky et Parameter ReLU, cette stratégie pour résoudre le problème des neurones morts est légèrement différente. Contrairement à ReLU, les valeurs négatives se lissent progressivement et deviennent contraintes pour éviter les neurones morts. Cependant, cela coûte cher car une fonction exponentielle est utilisée pour décrire la pente négative. Lors de l'utilisation d'une technique de départ moins qu'idéale, la fonction exponentielle entraîne parfois un gradient en expansion.

Bruissement

Les petites valeurs négatives de Swish, qui ont été introduites pour la première fois en 2017, sont toujours utiles pour capturer les modèles sous-jacents, tandis que les grandes valeurs négatives auront une dérivée de 0. Swish peut être utilisé pour remplacer facilement ReLU en raison de sa forme intrigante.

Avantages -

Le résultat est une solution de contournement entre la fonction sigmoïde et RELU qui aide à normaliser le résultat.
A la capacité de traiter le problème du dégradé de fuite.

Utilisation -

En termes de catégorisation des images et de traduction automatique, il est comparable ou même supérieur à ReLU.

Compétences en apprentissage automatique en demande

Cours d'intelligence artificielle	Cours Tableaux
Cours PNL	Cours d'apprentissage en profondeur

4. Fonction d'activation Softmax

Comme les fonctions d'activation sigmoïde, softmax est principalement utilisé dans la couche finale, ou couche de sortie, pour prendre des décisions. Le softmax attribue simplement des valeurs aux variables d'entrée en fonction de leurs poids, et le total de ces poids est finalement égal à un.

Avantages -

Par rapport à la fonction RELU, la convergence du gradient est plus fluide dans Softmax.
Il a la capacité de gérer le problème du dégradé de fuite.

Utilisation -

Classification multiclasse et multinomina.

5. Sigmoïde

La fonction sigmoïde dans l'apprentissage automatique est l'une des fonctions d'activation les plus populaires. L'équation est -

f(x)=1/(1+e^-x)

Ces fonctions d'activation ont l'avantage de réduire les entrées à une valeur comprise entre 0 et 1, ce qui les rend idéales pour modéliser la probabilité. Lorsqu'elle est appliquée à un réseau de neurones profonds, la fonction devient différentiable mais sature rapidement en raison de la délimitation, ce qui entraîne une diminution du gradient. Le coût du calcul exponentiel augmente lorsqu'un modèle avec des centaines de couches et de neurones doit être formé.

La dérivée est contrainte entre -3 et 3, alors que la fonction est contrainte entre 0 et 1. Elle n'est pas idéale pour l'entraînement des couches cachées puisque la sortie n'est pas symétrique autour de zéro, ce qui amènerait tous les neurones à adopter le même signe lors de l'entraînement. .

Avantages -

Fournit un dégradé lisse pendant la convergence.
Il donne souvent une classification précise de la prédiction avec 0 et 1.

Utilisation -

La fonction sigmoïde dans Machine Learning est généralement utilisée dans les modèles de classification binaire et de régression logistique dans la couche de sortie.

Blogs populaires sur l'apprentissage automatique et l'intelligence artificielle

IdO : histoire, présent et avenir	Tutoriel d'apprentissage automatique : Apprendre le ML	Qu'est-ce que l'algorithme ? Simple et facile
Salaire d'ingénieur en robotique en Inde: tous les rôles	Une journée dans la vie d'un ingénieur en apprentissage automatique : que font-ils ?	Qu'est-ce que l'IoT (Internet des objets)
Permutation vs combinaison : Différence entre permutation et combinaison	Top 7 des tendances en matière d'intelligence artificielle et d'apprentissage automatique	Apprentissage automatique avec R : tout ce que vous devez savoir

6. Tanh - Fonction d'activation de tangente hyperbolique

Semblable à la fonction sigmoïde dans l'apprentissage automatique , cette fonction d'activation est utilisée pour prévoir ou distinguer deux classes, sauf qu'elle transfère exclusivement l'entrée négative en quantités négatives et a une plage de -1 à 1.

tanh(x)=2sigmoïde(2x)-1

tanh(x)=2/(1+e^(-2x)) -1

Cela résout essentiellement notre problème avec les valeurs ayant le même signe. Les autres caractéristiques sont identiques à celles de la fonction sigmoïde. En tout point, elle est continue et distincte.

Avantages -

Contrairement au sigmoïde, il a une fonction centrée sur le zéro.
Cette fonction a également un dégradé lisse.

Bien que les fonctions Tahn et Sigmoid dans Machine Learning puissent être utilisées dans des couches cachées en raison de leur délimitation positive, les réseaux de neurones profonds ne peuvent pas les utiliser en raison de la saturation de la formation et des gradients de disparition.

Démarrez votre carrière en machine learning avec le bon cours

Vous souhaitez approfondir les fonctions d'activation et leur aide pour améliorer l'apprentissage automatique ? Obtenez un aperçu de l'apprentissage automatique avec tous les détails tels que l'IA, l'apprentissage en profondeur, la PNL et l'apprentissage par renforcement avec un cours UpGrad reconnu par WES Master of Science in Machine Learning and AI . Ce cours offre des expériences pratiques tout en travaillant sur plus de 12 projets, en menant des recherches, des cours de codage de haut niveau et en encadrant certains des meilleurs professeurs.

Inscrivez-vous pour en savoir plus !

Conclusion

Les opérations critiques appelées fonctions d'activation modifient l'entrée de manière non linéaire, lui permettant de comprendre et d'effectuer des tâches plus complexes. Nous avons abordé les fonctions d'activation les plus populaires et leurs utilisations qui peuvent s'appliquer ; ces fonctions d'activation assurent la même fonction mais sont appliquées dans des circonstances différentes.

Comment pouvez-vous décider quelle fonction d'activation est la meilleure ?

Le choix d'une fonction d'activation est une décision complexe entièrement dépendante du problème à résoudre. Cependant, vous voudrez peut-être commencer par la fonction sigmoïde si vous débutez dans l'apprentissage automatique avant de continuer avec les autres.

La fonction d'activation doit-elle être linéaire ou non linéaire ?

Quelle que soit la complexité de la conception, une fonction d'activation linéaire n'est efficace que jusqu'à une couche de profondeur. La couche d'activation ne peut donc pas être linéaire. De plus, le monde d'aujourd'hui et ses défis sont très non linéaires.

Quelle fonction d'activation peut être apprise facilement ?

Tanh. En élargissant la plage pour couvrir -1 à 1, il résout l'inconvénient de la fonction d'activation sigmoïde. Il en résulte un centrage zéro, ce qui fait que la moyenne des poids de la couche masquée se rapproche de 0. L'apprentissage devient ainsi plus rapide et plus facile.