Alles, was Sie über die Aktivierungsfunktion in ML wissen müssen
Veröffentlicht: 2022-11-08Was ist die Aktivierungsfunktion beim maschinellen Lernen?
Aktivierungsfunktionen für maschinelles Lernen erweisen sich als entscheidende Elemente in einem ML-Modell mit all seinen Gewichtungen und Verzerrungen. Sie sind ein Forschungsgegenstand, der sich ständig weiterentwickelt und eine bedeutende Rolle dabei gespielt haben, Deep Neural Network-Training Realität werden zu lassen. Im Wesentlichen bestimmen sie die Entscheidung, ein Neuron zu stimulieren. Ob die Informationen, die ein Neuron erhält, zu den bereits vorhandenen Informationen passen oder ob sie vernachlässigt werden sollten. Die nichtlineare Modifikation, die wir auf das Eingangssignal anwenden, wird als Aktivierungsfunktion bezeichnet. Die folgende Schicht von Neuronen erhält diese veränderte Ausgabe als Eingabe.
Da Aktivierungsfunktionen nichtlineare Berechnungen an der Eingabe eines neuronalen Netzwerks durchführen, ermöglichen sie ihm, kompliziertere Aufgaben ohne sie zu lernen und auszuführen, was im Wesentlichen ein lineares Regressionsmodell beim maschinellen Lernen ist.
Es ist wichtig, die Anwendungen von Aktivierungsfunktionen zu verstehen und die Vor- und Nachteile jeder Aktivierungsfunktion abzuwägen, um die geeignete Art von Aktivierungsfunktion auszuwählen, die in einem bestimmten neuronalen Netzwerkmodell Nichtlinearität und Präzision bieten kann.
Melden Sie sich für den Machine Learning-Kurs an den besten Universitäten der Welt an. Erwerben Sie Master-, Executive PGP- oder Advanced Certificate-Programme, um Ihre Karriere zu beschleunigen.
Es gibt grundsätzlich zwei Arten von Funktionsmodellen für die Aktivierung des maschinellen Lernens –
- Versteckte Schichten
- Ausgabeschichten
Versteckte Schichten
Die Aktivierungsfunktionen, die in den verborgenen Schichten der neuronalen Modelle verwendet werden, bestehen in erster Linie darin, die Nichtlinearität bereitzustellen, die neuronale Netze benötigen, um nichtlineare Interaktionen zu simulieren.
Ausgabeschichten
Die Aktivierungsmethoden, die von den Ausgabeschichten der Modelle für maschinelles Lernen verwendet werden, haben ein bestimmtes Hauptziel: Komprimieren des Werts innerhalb eines eingeschränkten Bereichs, z. B. 0 bis 1.
Lassen Sie uns zunächst die verschiedenen Arten von Aktivierungsfunktionen beim maschinellen Lernen verstehen –
1. Binäre Schrittfunktion
Ein schwellenwertbasierter Klassifikator, der bestimmt, ob das Neuron aktiviert werden soll oder nicht, ist das erste, was uns in den Sinn kommt, wenn wir eine Aktivierungsfunktion haben. Das Neuron wird getriggert, wenn der Wert Y größer als ein vorgegebener Schwellwert ist; andernfalls wird es inaktiv gelassen.
Es wird oft definiert als –
f(x) = 1, x>=0
f(x) = 0, x<0
Die binäre Funktion ist einfach. Es ist während der Entwicklung eines binären Klassifikators anwendbar. Es werden Bewertungen benötigt, die die idealen Optionen sind, wenn wir nur für eine einzelne Klasse mit Ja oder Nein antworten müssen, da sie entweder das Neuron einschalten oder es auf Null lassen.
2. Lineare Funktion
Eine positive Steigung kann einen Anstieg der Feuerungsrate verursachen, wenn die Eingangsrate steigt. Lineare Aktivierungsfunktionen sind überlegen bei der Bereitstellung eines breiten Bereichs von Aktivierungen.
Die Funktion ist genau proportional zur gewichteten Kombination von Neuronen oder zur Eingabe in unsere einfache horizontale Aktivierungsfunktion.
Ein Neuron kann binär feuern oder nicht feuern. Sie werden vielleicht bemerken, dass die Ableitung dieser Funktion konstant ist, wenn Sie mit Gradientenabstieg beim maschinellen Lernen vertraut sind.
Beste Online-Kurse für maschinelles Lernen und KI-Kurse
Master of Science in Machine Learning & AI von der LJMU | Executive Post Graduate Program in Machine Learning & AI vom IIITB | |
Advanced Certificate Program in Machine Learning & NLP von IIITB | Advanced Certificate Program in Machine Learning & Deep Learning von IIITB | Executive Post Graduate Program in Data Science & Machine Learning von der University of Maryland |
Um alle unsere Kurse zu erkunden, besuchen Sie unsere Seite unten. | ||
Kurse zum maschinellen Lernen |
3. Nichtlineare Funktion
ReLU
In Bezug auf die Aktivierungsfunktionen ist die gleichgerichtete Lineareinheit die beste. Dies ist die beliebteste und standardmäßige Aktivierungsfunktion für die meisten Probleme. Wenn es negativ ist, ist es auf 0 beschränkt, während es, wenn es positiv wird, unbegrenzt ist. Ein tiefes neuronales Netzwerk kann von der intrinsischen Regularisierung profitieren, die durch diese Kombination aus Begrenztheit und Unbegrenztheit geschaffen wird. Die Regularisierung erzeugt eine spärliche Darstellung, die das Training und die Inferenz rechnerisch effektiv macht.
Positive Unbegrenztheit behält die rechnerische Einfachheit bei, während die Konvergenz der linearen Regression beschleunigt wird. ReLU hat nur einen wesentlichen Nachteil: tote Neuronen. Einige tote Neuronen, die früh in der Trainingsphase abgeschaltet und negativ an 0 gebunden sind, reaktivieren nie. Da die Funktion schnell von unbeschränkt für x > 0 in beschränkt für x ≤ 0 übergeht, kann sie nicht kontinuierlich differenziert werden. In der Praxis kann dies jedoch ohne dauerhafte Auswirkungen auf die Leistung überwunden werden, wenn eine niedrige Lernrate und eine signifikante negative Verzerrung vorliegen.
Vorteile:
- ReLU erfordert weniger mathematische Prozesse als andere nichtlineare Funktionen, wodurch es weniger rechenintensiv und linear ist.
- Es verhindert und behebt das Problem mit dem verschwindenden Farbverlauf.
Verwenden:
- Wird in RNN, CNN und anderen Modellen für maschinelles Lernen verwendet.
Verschiedene Modifikationen von ReLU –
Undichtes ReLU
Eine bessere Variante der ReLU-Funktion ist die Leaky ReLU-Funktion. Da der Gradient der ReLU-Funktion 0 ist, wobei x < 0 ist, führten die Aktivierungen in dieser Region zum Absterben der Neuronen, und Leaky ReLU erweist sich als am vorteilhaftesten, um solche Probleme zu lösen. Wir definieren die ReLU-Funktion als winzige lineare Komponente von x und nicht als 0, wobei x < 0 ist.
Es kann gesehen werden als –
f(x)=ax, x<0
f(x)=x, x>=0
Vorteile –
- Leaky ReLU, das eine leicht negative Steigung aufweist, war ein Versuch, das Problem des „sterbenden ReLU“ (von etwa 0,01) anzugehen.
Verwenden -
- Wird in Aufgaben verwendet, die Gradienten wie GAN beinhalten.
Parametrische ReLU
Dies ist eine Verbesserung gegenüber Leaky ReLU, bei der das skalare Vielfache anhand der Daten trainiert und nicht zufällig ausgewählt wird. Da das Modell mit Daten trainiert wurde, reagiert es empfindlich auf den Skalierungsparameter (a) und zählt je nach Wert von a unterschiedlich.
Verwenden -
- Wenn die Leaky ReLU ausfällt, kann eine parametrische ReLU verwendet werden, um das Problem toter Neuronen zu lösen.
GeLU (Gaussian Error Linear Unit)
Das neueste Kind auf dem Block und zweifellos der Sieger für NLP (Natural Language Processing)-bezogene Aufgaben ist die Gaußian Error Linear Unit, die in transformatorbasierten Systemen und SOTA-Algorithmen wie GPT-3 und BERT verwendet wird. GeLU kombiniert ReLU, Zone Out und Dropout (wodurch Neuronen für ein spärliches Netzwerk zufällig auf Null gesetzt werden). ReLU wird mit GeLU glatter gemacht, da es Eingaben nach Perzentil und nicht nach Toren gewichtet.
Verwenden -
- Computer Vision, NLP, Spracherkennung
ELU (Exponential Linear Unit)
Die 2015 eingeführte ELU ist positiv unbeschränkt und verwendet eine logarithmische Kurve für negative Werte. Im Vergleich zu Leaky und Parameter ReLU ist diese Strategie zur Lösung des Problems toter Neuronen etwas anders. Im Gegensatz zu ReLU glätten sich die negativen Werte allmählich und werden eingeschränkt, um tote Neuronen zu verhindern. Es ist jedoch teuer, da eine Exponentialfunktion verwendet wird, um die negative Steigung zu beschreiben. Bei Verwendung einer weniger als idealen Starttechnik führt die Exponentialfunktion gelegentlich zu einem expandierenden Gradienten.
Zisch
Die kleinen negativen Werte von Swish, die erstmals 2017 eingeführt wurden, sind immer noch hilfreich, um zugrunde liegende Muster zu erfassen, während große negative Werte eine Ableitung von 0 haben. Swish kann aufgrund seiner faszinierenden Form problemlos verwendet werden, um ReLU zu ersetzen.
Vorteile –
- Das Ergebnis ist eine Problemumgehung zwischen der Sigmoid-Funktion und RELU, die hilft, das Ergebnis zu normalisieren.
- Hat die Fähigkeit, mit dem Vanishing-Gradient-Problem umzugehen.
Verwenden -
- In Sachen Bildkategorisierung und maschineller Übersetzung ist es ReLU ebenbürtig oder sogar überlegen.
Gefragte maschinelle Lernfähigkeiten
Kurse zu Künstlicher Intelligenz | Tableau-Kurse |
NLP-Kurse | Deep-Learning-Kurse |
4. Softmax-Aktivierungsfunktion
Wie Sigmoid-Aktivierungsfunktionen wird Softmax hauptsächlich in der letzten Schicht oder Ausgabeschicht verwendet, um Entscheidungen zu treffen. Der Softmax weist den Eingabevariablen einfach Werte basierend auf ihren Gewichtungen zu, und die Summe dieser Gewichtungen ergibt schließlich eins.
Vorteile –
- Im Vergleich zur RELU-Funktion ist die Gradientenkonvergenz in Softmax glatter.
- Es hat die Fähigkeit, das Problem des verschwindenden Farbverlaufs zu behandeln.
Verwenden -
- Multiclass- und Multinomina-Klassifizierung.
5. Sigma
Die Sigmoid-Funktion im maschinellen Lernen ist eine der beliebtesten Aktivierungsfunktionen. Die Gleichung ist –
f(x)=1/(1+e^-x)
Diese Aktivierungsfunktionen haben den Vorteil, dass sie die Eingaben auf einen Wert zwischen 0 und 1 reduzieren, was sie ideal für die Modellierung von Wahrscheinlichkeiten macht. Bei Anwendung auf ein tiefes neuronales Netzwerk wird die Funktion differenzierbar, gerät jedoch aufgrund der Begrenztheit schnell in die Sättigung, was zu einem abnehmenden Gradienten führt. Die Kosten für exponentielle Berechnungen steigen, wenn ein Modell mit Hunderten von Schichten und Neuronen trainiert werden muss.
Die Ableitung ist zwischen -3 und 3 eingeschränkt, während die Funktion zwischen 0 und 1 eingeschränkt ist. Sie ist nicht ideal zum Trainieren verborgener Schichten, da die Ausgabe nicht symmetrisch um Null ist, was dazu führen würde, dass alle Neuronen während des Trainings dasselbe Vorzeichen annehmen würden .
Vorteile –
- Bietet einen glatten Gradienten während der Konvergenz.
- Es gibt oft eine genaue Klassifizierung der Vorhersage mit 0 und 1.
Verwenden -
- Die Sigmoid-Funktion im maschinellen Lernen wird typischerweise in binären Klassifizierungs- und logistischen Regressionsmodellen in der Ausgabeschicht verwendet.
Beliebte Blogs zu maschinellem Lernen und künstlicher Intelligenz
IoT: Geschichte, Gegenwart und Zukunft | Lernprogramm für maschinelles Lernen: Lernen Sie ML | Was ist Algorithmus? Einfach & leicht |
Gehalt als Robotikingenieur in Indien: Alle Rollen | Ein Tag im Leben eines Machine Learning Engineers: Was machen sie? | Was ist IoT (Internet der Dinge) |
Permutation vs. Kombination: Unterschied zwischen Permutation und Kombination | Top 7 Trends in künstlicher Intelligenz und maschinellem Lernen | Maschinelles Lernen mit R: Alles, was Sie wissen müssen |
6. Tanh – Aktivierungsfunktion der hyperbolischen Tangente
Ähnlich wie die Sigmoid-Funktion beim maschinellen Lernen wird diese Aktivierungsfunktion verwendet, um zwei Klassen vorherzusagen oder zu unterscheiden, außer dass sie ausschließlich den negativen Input in negative Größen umwandelt und einen Bereich von -1 bis 1 hat.
tanh(x)=2sigmoid(2x)-1
oder
tanh(x)=2/(1+e^(-2x)) -1
Es löst im Wesentlichen unser Problem mit den Werten mit demselben Vorzeichen. Andere Eigenschaften sind identisch mit denen der Sigmoidfunktion. An jedem Punkt ist es kontinuierlich und deutlich.
Vorteile –
- Im Gegensatz zu Sigmoid hat es eine nullzentrische Funktion.
- Diese Funktion hat auch einen glatten Verlauf.
Obwohl Tahn- und Sigmoid-Funktionen beim maschinellen Lernen aufgrund ihrer positiven Begrenztheit in verborgenen Schichten verwendet werden können, können tiefe neuronale Netze sie aufgrund von Trainingssättigung und verschwindenden Gradienten nicht verwenden.
Beginnen Sie Ihre Karriere im Bereich maschinelles Lernen mit dem richtigen Kurs
Sind Sie daran interessiert, tiefer in die Aktivierungsfunktionen und ihre Unterstützung bei der Verbesserung des maschinellen Lernens einzutauchen? Verschaffen Sie sich einen Überblick über Machine Learning mit allen Details wie KI, Deep Learning, NLP und Reinforcement Learning mit einem von der WES anerkannten UpGrad-Kurs Master of Science in Machine Learning and AI . Dieser Kurs bietet praktische Erfahrungen bei der Arbeit an mehr als 12 Projekten, der Durchführung von Forschungsarbeiten, hochkarätigen Programmierkursen und Coaching mit einigen der besten Professoren.
Melden Sie sich an, um mehr zu erfahren!
Fazit
Die kritischen Operationen, die als Aktivierungsfunktionen bekannt sind, verändern die Eingabe auf nichtlineare Weise, sodass sie kompliziertere Aufgaben verstehen und ausführen kann. Wir haben die beliebtesten Aktivierungsfunktionen und ihre möglicherweise zutreffenden Verwendungen angesprochen; diese Aktivierungsfunktionen bieten die gleiche Funktion, werden aber unter verschiedenen Umständen angewendet.
Wie können Sie entscheiden, welche Aktivierungsfunktion am besten ist?
Die Auswahl einer Aktivierungsfunktion ist eine komplexe Entscheidung, die vollständig von der jeweiligen Fragestellung abhängt. Möglicherweise möchten Sie jedoch mit der Sigmoidfunktion beginnen, wenn Sie mit maschinellem Lernen noch nicht vertraut sind, bevor Sie mit anderen fortfahren.
Soll die Aktivierungsfunktion linear oder nichtlinear sein?
Egal wie kompliziert das Design ist, eine lineare Aktivierungsfunktion ist nur bis zu einer Schichttiefe wirksam. Daher kann die Aktivierungsschicht nicht linear sein. Darüber hinaus sind die heutige Welt und ihre Herausforderungen sehr nichtlinear.
Welche Aktivierungsfunktion lässt sich leicht erlernen?
Tanh. Indem der Bereich auf -1 bis 1 erweitert wird, wird der Nachteil der Sigmoid-Aktivierungsfunktion behoben. Dies führt zu einer Null-Zentriertheit, wodurch der Mittelwert der Gewichte der verdeckten Schicht nahe 0 geht. Das Lernen wird dadurch schneller und einfacher.