Reinforcement Learning in ML: Wie funktioniert es, Lernmodelle und -typen

Veröffentlicht: 2021-06-11

Inhaltsverzeichnis

Was ist Reinforcement Learning?
Wie funktioniert Reinforcement Learning?
Reinforcement-Learning-Algorithmus
- 1. Wertbasiert
- 2. Richtlinienbasiert
- 3. Modellbasiert
Lernmodelle in Reinforcement
Unterschied zwischen Reinforcement Learning und Supervised Learning
Arten der Verstärkung
- 1. Positiv
- 2. Negativ
Herausforderungen beim Reinforcement Learning
- Anwendungen der Verstärkung
Wozu dient Reinforcement Learning?
Fazit
Wie sieht die Zukunft für Machine-Learning-Jobs aus?
Was ist eine KI-Cloud?
Wo wird der Reinforcement-Learning-Algorithmus verwendet?

Was ist Reinforcement Learning?

Reinforcement Learning bezeichnet den Prozess, durch geeignete Modelle des maschinellen Lernens geeignete Entscheidungen zu treffen. Es basiert auf dem Trainingsprozess einer maschinellen Lernmethode. Es ist eine Feedback-basierte maschinelle Lerntechnik, bei der ein Agent lernt, sich in einer Umgebung zu verhalten, indem er seine Fehler beobachtet und die Aktionen ausführt.

Reinforcement Learning wendet die Methode des Lernens durch Interaktion und Feedback an. Einige der beim Reinforcement Learning verwendeten Terminologien sind:

Agent : Es ist der Lernende oder der Entscheidungsträger, der Aktionen ausführt, um eine Belohnung zu erhalten.
Umgebung : Es ist das Szenario, in dem ein Agent lernt und zukünftige Aufgaben ausführt.
Aktion : Aktionen, die vom Agenten ausgeführt werden.
Staat : aktuelle Situation
Policy : Entscheidungsfunktion eines Agenten, wobei der Agent basierend auf dem aktuellen Zustand über die zukünftige Aktion entscheidet.
Belohnung : Rückgaben, die von der Umgebung an einen Agenten für die Ausführung jeder Aktion bereitgestellt werden.
Wert : Im Vergleich zur Belohnung ist es die erwartete langfristige Rendite mit einem Abschlag.
Wertfunktion : Bezeichnet den Wert eines Staates, dh die Gesamtrendite.
Funktionsapproximator : Induzieren einer Funktion aus Trainingsbeispielen.
Modell der Umgebung: Es ist ein Modell, das die reale Umgebung nachahmt, um Schlussfolgerungen vorherzusagen.
Modellbasierte Methoden : Wird zum Lösen von bewehrungsbasierten Modellen verwendet.
Q-Wert oder Aktionswert : Ähnlich wie Wert, aber zusätzliche Parameter werden wie aktuelle Aktion betrachtet.
Markov-Entscheidungsprozess : Ein probabilistisches Modell des sequentiellen Entscheidungsproblems.
Dynamische Programmierung : Klasse von Methoden zur Lösung sequentieller Entscheidungsprobleme.

Reinforcement Learning befasst sich hauptsächlich mit der Tatsache, wie die Software-Agenten in einer Umgebung handeln sollen. Das Lernen auf der Grundlage neuronaler Netze ermöglicht das Erreichen eines komplexen Ziels.

Wie funktioniert Reinforcement Learning?

Ein Beispiel für bestärkendes Lernen ist unten gezeigt und zeigt, wie bestärkendes Lernen funktioniert.

Katzen verstehen keinerlei Sprache und daher muss eine andere Strategie verfolgt werden, um mit der Katze zu kommunizieren.
Es entsteht eine Situation, in der die Katze auf verschiedene Weise handelt. Die Katze wird mit Fisch belohnt, wenn es der gewünschte Weg ist. Daher verhält sich die Katze in dieser Situation genauso und erwartet mehr Futter als Belohnung.
Das Szenario definiert den Prozess des Lernens aus positiven Erfahrungen.
Schließlich lernt die Katze auch durch negative Erfahrungen, was sie nicht tun soll.

Dies führt zu folgender Erklärung

Die Katze fungiert als Agent, da sie einer Umgebung ausgesetzt ist. Im oben genannten Beispiel ist das Haus die Umgebung. Die Zustände könnten so etwas wie die sitzende oder laufende Katze sein.
Der Agent führt eine Aktion aus, indem er von einem Zustand in den anderen übergeht, so wie er sich von einer sitzenden in eine gehende Position bewegt.
Die Aktion ist die Reaktion des Agenten. Die Richtlinie umfasst das Verfahren zum Auswählen einer Aktion in einem bestimmten Zustand, während ein besseres Ergebnis im zukünftigen Zustand erwartet wird.
Der Zustandsübergang kann eine Belohnung oder Strafe bedeuten.

Einige Punkte, die beim Reinforcement Learning zu beachten sind

Es sollte ein Anfangszustand der Eingabe bereitgestellt werden, von dem aus das Modell gestartet wird.
Viele mögliche Ergebnisse werden durch verschiedene Lösungen für ein bestimmtes Problem generiert.
Das Training der RL-Methode basiert auf der Eingabe. Nach der Generierung der Ausgabe entscheidet das Modell, ob es das Modell belohnt. Daher wird das Modell weiter trainiert.
Das Modell lernt kontinuierlich dazu.
Die beste Lösung für ein Problem wird anhand der maximalen Belohnung entschieden, die es erhält.

Reinforcement-Learning-Algorithmus

Es gibt drei Ansätze zur Implementierung eines Reinforcement-Learning-Verfahrens.

1. Wertbasiert

Das wertbasierte Verfahren beinhaltet das Maximieren der Wertfunktion V(s). Unter einer Police wird die Erwartung einer langfristigen Rückgabe des Ist-Zustandes erwartet. SARSA und Q Learning sind einige der wertbasierten Algorithmen. Wertbasierte Ansätze sind ziemlich stabil, da sie nicht in der Lage sind, eine kontinuierliche Umgebung zu modellieren. Beide Algorithmen sind einfach zu implementieren, aber sie konnten keine Werte eines unsichtbaren Zustands schätzen.

2. Richtlinienbasiert

Diese Art von Methode beinhaltet die Entwicklung einer Richtlinie, die hilft, durch die Ausführung jeder Aktion eine maximale Belohnung zurückzugeben.

Es gibt zwei Arten von richtlinienbasierten Methoden:

Deterministisch: Dies bedeutet, dass die Richtlinie in jedem Zustand die gleiche Aktion hervorruft.
Stochastik: Für jede Aktion existiert eine durch die Gleichung definierte Wahrscheinlichkeit

n{a\s) = P\A, = a\S, =S]

Policy-basierte Algorithmen sind der Monte-Carlo-Policy-Gradient (REINFORCE) und der deterministische Policy-Gradient (DPG). Policy-basierte Lernansätze erzeugen Instabilitäten, da sie unter hoher Varianz leiden.

Durch eine Kombination aus wertebasierten und richtlinienbasierten Ansätzen wird ein „akteurkritischer“ Algorithmus entwickelt. Die Parametrisierung sowohl der Wertfunktion (Kritik) als auch der Politik (Akteur) ermöglicht eine stabile Konvergenz durch effektive Nutzung der Trainingsdaten.

3. Modellbasiert

Für jede Umgebung wird ein virtuelles Modell erstellt und der Agent lernt basierend auf diesem Modell. Die Modellerstellung umfasst die Schritte des Abtastens von Zuständen, des Ergreifens von Maßnahmen und des Beobachtens der Belohnungen. Für jeden Zustand in einer Umgebung sagt das Modell den zukünftigen Zustand und die erwartete Belohnung voraus. Mit der Verfügbarkeit des RL-basierten Modells kann ein Agent die Aktionen planen. Der Agent erhält die Fähigkeit zu lernen, wenn der Planungsprozess mit der Politikschätzung verwoben ist.

Reinforcement Learning zielt darauf ab, ein Ziel durch die Erforschung eines Agenten in einer unbekannten Umgebung zu erreichen. Eine Hypothese von RL besagt, dass Ziele als DIE Maximierung von Belohnungen bezeichnet werden können. Der Agent muss in der Lage sein, die maximale Belohnung durch die Störung von Zuständen in Form von Aktionen abzuleiten. RL-Algorithmen können grob in modellbasiert und modellfrei eingeteilt werden.

Lernmodelle in Reinforcement

1. Markov-Entscheidungsprozess

Der Satz von Parametern, die in einem Markov-Entscheidungsprozess verwendet werden, sind

Satz von Aktionen-A

Satz von Zuständen-S

Belohnung-R

Richtlinien-n

Wert-V

Der Markov-Entscheidungsprozess ist der mathematische Ansatz zur Abbildung einer Lösung beim Reinforcement Learning.

2. Q-Lernen

Dieser Prozess liefert Informationen an den Agenten, die darüber informieren, mit welcher Aktion er fortfahren soll. Es ist eine Form des modellfreien Ansatzes. Die Q-Werte werden ständig aktualisiert, was den Wert einer Aktion „a“ im Zustand „s“ angibt.

Unterschied zwischen Reinforcement Learning und Supervised Learning

Überwachtes Lernen ist ein Prozess des maschinellen Lernens, bei dem ein Betreuer Wissen in einen Lernalgorithmus einspeisen muss. Die Hauptfunktion des Supervisors umfasst das Sammeln der Trainingsdaten wie Bilder, Audioclips etc.

Während in RL der Trainingsdatensatz hauptsächlich den Satz von Situationen und Aktionen enthält. Reinforcement Learning im maschinellen Lernen erfordert keinerlei Aufsicht. Auch die Kombination aus Reinforcement Learning und Deep Learning ergibt den Teilbereich Deep Reinforcement Learning.

Die Hauptunterschiede zwischen RL und überwachtem Lernen sind unten tabellarisch aufgeführt.

Verstärkungslernen	Überwachtes Lernen
Entscheidungen werden nacheinander getroffen. Die Ausgabe des Prozesses hängt vom Zustand der aktuellen Eingabe ab. Die nächste Eingabe hängt von der Ausgabe der vorherigen Eingabe ab und so weiter.	Die Entscheidung wird am Anfangseingang oder am Eingang getroffen, der zu Beginn des Prozesses zugeführt wird.
Entscheidungen sind abhängig. Daher erfolgt die Kennzeichnung an Sequenzen abhängiger Entscheidungen.	Entscheidungen sind unabhängig voneinander. Daher erfolgt die Kennzeichnung aller Entscheidungen.
Die Interaktion mit der Umwelt findet in RL statt.	Keine Interaktion mit der Umgebung. Der Prozess arbeitet mit dem vorhandenen Datensatz.
Der Entscheidungsprozess eines RL ähnelt dem Entscheidungsprozess eines menschlichen Gehirns.	Der Entscheidungsprozess ähnelt der Entscheidung, die ein menschliches Gehirn unter der Aufsicht eines Führers trifft.
Kein beschrifteter Datensatz.	Beschrifteter Datensatz.
Eine vorherige Schulung ist für den Lernagenten nicht erforderlich.	Für die Ausgabevorhersage wird ein vorheriges Training bereitgestellt.
RL wird am besten mit KI unterstützt, wo menschliche Interaktion vorherrscht.	Überwachtes Lernen wird meist mit Anwendungen oder interaktiven Softwaresystemen betrieben.
Beispiel: Schachspiel	Beispiel: Objekterkennung

Arten der Verstärkung

Es gibt zwei Arten von Reinforcement Learning

1. Positiv

Positives Verstärkungslernen wird als ein Ereignis definiert, das aus einem bestimmten Verhalten hervorgeht. Dies wirkt sich positiv auf den Agenten aus, da es die Stärke und Häufigkeit des Lernens erhöht. Dadurch wird die Leistung maximiert. Daher werden Änderungen über einen längeren Zeitraum aufrechterhalten. Aber eine Überoptimierung von Zuständen kann die Lernergebnisse beeinflussen. Daher sollte Reinforcement Learning nicht zu viel sein.

Vorteile der positiven Verstärkung sind:

Leistungsmaximierung.
Veränderungen, die länger andauern.

2. Negativ

Negative Verstärkung wird definiert, wenn das Verhalten unter negativen Umständen verstärkt wird. Der Mindestleistungsstandard wird durch negative Verstärkung definiert

Vorteile des negativen bestärkenden Lernens sind:

Erhöht das Verhalten.
Sich einem Mindestleistungsstandard widersetzen

Nachteil des bestärkenden Lernens

Bietet nur genug, um das Mindestverhalten zu erfüllen.

Herausforderungen beim Reinforcement Learning

Reinforcement Learning ist, obwohl es keine Überwachung des Modells erfordert, keine Art von unüberwachtem Lernen. Es ist jedoch ein anderer Teil des maschinellen Lernens.

Einige Herausforderungen im Zusammenhang mit Reinforcement Learning sind:

Vorbereitung der Simulationsumgebung. Dies hängt von der auszuführenden Aufgabe ab. Die Erstellung eines realistischen Simulators ist eine anspruchsvolle Aufgabe. Das Modell muss jede Minute und jedes wichtige Detail der Umgebung herausfinden.
Die Einbeziehung von Feature- und Belohnungsdesign ist sehr wichtig.
Die Lerngeschwindigkeit kann durch die Parameter beeinflusst werden.
Überführung des Modells in die Trainingsumgebung.
Die Steuerung des Agenten durch neuronale Netze ist eine weitere Herausforderung, da die einzige Kommunikation mit den neuronalen Netzen über das System von Belohnungen und Strafen erfolgt. Manchmal kann dies zu einem katastrophalen Vergessen führen, dh zum Löschen alten Wissens, während neues Wissen hinzugewonnen wird.
Das Erreichen eines lokalen Minimums ist eine Herausforderung für das bestärkende Lernen.
Unter Bedingungen einer realen Umgebung kann eine teilweise Beobachtung vorliegen.
Die Anwendung von Reinforcement Learning sollte geregelt werden. Ein Übermaß an RL führt zur Überlastung der Zustände. Dies kann zu einer Verschlechterung der Ergebnisse führen.
Die realen Umgebungen sind nicht stationär.

Anwendungen der Verstärkung

Im Bereich Robotik für die industrielle Automatisierung.
RL kann bei der strategischen Planung von Unternehmen eingesetzt werden.
RL kann in Datenverarbeitungstechniken mit maschinellen Lernalgorithmen verwendet werden.
Es kann für die kundenspezifische Vorbereitung von Schulungsmaterialien für Studenten gemäß ihren Anforderungen verwendet werden.
RL kann bei der Steuerung von Flugzeugen und der Bewegung von Robotern angewendet werden.

In großen Umgebungen kann Verstärkung in den folgenden Situationen angewendet werden

Wenn für ein bekanntes Umgebungsmodell keine analytische Lösung verfügbar ist.
Wenn nur ein Simulationsmodell der Umgebung bereitgestellt wird.
Wenn es nur eine Möglichkeit gibt, die Daten zu sammeln, nämlich mit der Umgebung zu interagieren.

Wozu dient Reinforcement Learning?

Reinforcement Learning hilft bei der Identifizierung der Situation, die eine Aktion erfordert.
Die Anwendung von RL hilft dabei, zu wissen, welche Aktion die höchste Belohnung bringt.
Der Nutzen von RL liegt darin, dem Agenten eine Belohnungsfunktion bereitzustellen.
Schließlich hilft der RL bei der Identifizierung der Methode, die zu größeren Belohnungen führt.

Fazit

RL kann nicht auf jede Situation angewendet werden. Es gibt bestimmte Einschränkungen in seiner Verwendung.

Die Verfügbarkeit von genügend Daten ermöglicht die Verwendung eines überwachten Lernansatzes anstelle einer RL-Methode.
Die Berechnung von RL ist ziemlich zeitaufwändig, insbesondere in Fällen, in denen eine große Umgebung betrachtet wird.

Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das Executive PG Program in Machine Learning & AI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben, IIIT, bietet -B Alumni-Status, mehr als 5 praktische Schlusssteinprojekte und Arbeitsunterstützung bei Top-Unternehmen.

Wie sieht die Zukunft für Machine-Learning-Jobs aus?

Die Akzeptanz von maschinellem Lernen hat heute in verschiedenen Branchen schnell zugenommen. Angefangen bei der Finanz- und Investmentbranche bis hin zu Unterhaltung, Medien, Automobil, Gesundheitswesen und Gaming – es gibt kaum eine Branche, die heute nicht auf KI und maschinelles Lernen setzt. Folglich ist der Umfang von Machine-Learning-Jobs deutlich höher als bei vielen anderen Technologie-Jobs. Laut Berichten von Gartner werden bis Ende des Jahres 2022 schätzungsweise 2,3 Millionen Arbeitsplätze für maschinelles Lernen und KI auf dem Markt sein. Darüber hinaus wird erwartet, dass die Vergütung, die Fachleuten in diesem Bereich angeboten wird, deutlich höher sein wird, mit Anfangsgehältern von 9 Lakhs INR pro Jahr.

Was ist eine KI-Cloud?

KI-Cloud ist ein relativ neues Konzept, das Unternehmen seit kurzem aufgreifen. Dieses Konzept kombiniert künstliche Intelligenz und Cloud Computing und wird von zwei Faktoren angetrieben. KI-Software und -Tools bieten einen neuen und verbesserten Mehrwert für Cloud Computing, das jetzt eine immer wichtigere Rolle bei der Einführung künstlicher Intelligenz spielt. Die KI-Cloud umfasst eine gemeinsam genutzte Infrastruktur für bestimmte Anwendungsfälle, die gleichzeitig von verschiedenen Projekten und Workloads genutzt werden. Der größte Vorteil der KI-Cloud besteht darin, dass sie erfolgreich KI-Hardware und Open-Source-Software zusammenführt, um Kunden (Unternehmen) KI-SaaS in einem hybriden Cloud-Setup bereitzustellen.

Wo wird der Reinforcement-Learning-Algorithmus verwendet?

Reinforcement-Learning-Algorithmen kommen mit verschiedenen Anwendungen wie Geschäftsstrategieplanung, Robotik für industrielle Prozessautomatisierung, Flugzeugsteuerung und Roboterbewegungssteuerung, maschinelles Lernen, Entwicklung eines benutzerdefinierten Trainingssystems für Studenten, Datenverarbeitung und vielem mehr. Die Verwendung eines Reinforcement-Learning-Algorithmus ist in diesen Fällen besonders effizient, da er leicht dabei helfen kann, Situationen zu entdecken, die tatsächlich Handlungsbedarf haben, und die Handlungen, die über einen bestimmten Zeitraum mit den höchsten Belohnungen einhergehen. Reinforcement Learning sollte jedoch nicht angewendet werden, wenn genügend Daten vorhanden sind, um eine Lösung mit einer Methode des überwachten Lernens anzubieten.