6 Arten von überwachtem Lernen, die Sie 2022 kennen müssen
Veröffentlicht: 2021-01-10Maschinelles Lernen ist eine der häufigsten Anwendungen der künstlichen Intelligenz. Eine Maschine lernt aus den ihr zugeführten Daten, Aufgaben auszuführen. Und mit zunehmender Erfahrung verbessert sich seine Leistung bei einer bestimmten Aufgabe. Maschinelles Lernen umfasst überwachte, unüberwachte und verstärkte Lerntechniken. Lesen Sie mehr über die Arten des maschinellen Lernens.
In diesem Artikel werden wir verschiedene Arten von überwachtem Lernen betrachten.
Inhaltsverzeichnis
Was ist überwachtes Lernen?
Beim überwachten Lernen wird eine Maschine mit „markierten“ Daten trainiert. Datensätze werden als beschriftet bezeichnet, wenn sie sowohl Eingabe- als auch Ausgabeparameter enthalten. Mit anderen Worten, die Daten wurden bereits mit der richtigen Antwort markiert.
Die Technik ahmt also eine Klassenzimmerumgebung nach, in der ein Schüler in Anwesenheit eines Vorgesetzten oder Lehrers lernt. Auf der anderen Seite lassen Algorithmen für unüberwachtes Lernen die Modelle Informationen entdecken und selbstständig lernen.
Überwachtes maschinelles Lernen ist immens hilfreich bei der Lösung realer Rechenprobleme. Der Algorithmus sagt Ergebnisse für unvorhergesehene Daten voraus, indem er aus beschrifteten Trainingsdaten lernt. Daher sind hochqualifizierte Datenwissenschaftler erforderlich, um solche Modelle zu erstellen und einzusetzen. Im Laufe der Zeit nutzen Data Scientists auch ihr technisches Know-how, um die Modelle neu zu erstellen, um die Integrität der gewonnenen Erkenntnisse zu erhalten.
Wie funktioniert es?
Beispielsweise möchten Sie eine Maschine darauf trainieren, Ihre Pendelzeit zwischen Ihrem Büro und Ihrem Zuhause vorherzusagen. Zunächst würden Sie einen beschrifteten Datensatz wie Wetter, Tageszeit, gewählte Route usw. erstellen, der Ihre Eingabedaten enthalten würde. Und die Ausgabe wäre die geschätzte Dauer Ihrer Heimreise an einem bestimmten Tag.

Sobald Sie einen Trainingssatz erstellt haben, der auf entsprechenden Faktoren basiert, würde die Maschine die Beziehungen zwischen Datenpunkten erkennen und daraus ermitteln, wie viel Zeit Sie benötigen, um nach Hause zu fahren. Beispielsweise kann Ihnen eine mobile Anwendung mitteilen, dass Ihre Reisezeit bei starkem Regen länger sein wird.
Die Maschine kann auch andere Verbindungen in Ihren gekennzeichneten Daten sehen, wie z. B. die Zeit, zu der Sie von der Arbeit gehen. Sie können früher nach Hause kommen, wenn Sie beginnen, bevor der Berufsverkehr auf die Straßen trifft. Lesen Sie mehr, wenn Sie wissen möchten, wie unüberwachtes maschinelles Lernen funktioniert.
Versuchen wir nun, überwachtes Lernen anhand eines weiteren Beispiels aus der Praxis zu verstehen. Angenommen, Sie haben einen Obstkorb und trainieren die Maschine mit allen möglichen Obstsorten. Trainingsdaten können diese Szenarien umfassen:
- Wenn das Objekt rot ist, eine runde Form hat und oben eine Vertiefung hat, bezeichne es als „Apfel“.
- Wenn der Artikel eine grünlich-gelbe Farbe hat und wie ein gebogener Zylinder geformt ist, kennzeichnen Sie ihn als „Banane“.
Als nächstes geben Sie ein neues Objekt (Testdaten) und bitten die Maschine zu erkennen, ob es sich um eine Banane oder einen Apfel handelt. Es lernt aus den Trainingsdaten und wendet das Wissen an, um die Früchte gemäß den eingegebenen Farben und Formen zu klassifizieren.
Verschiedene Arten von überwachtem Lernen
1. Rückschritt
Bei der Regression wird ein einzelner Ausgabewert unter Verwendung von Trainingsdaten erzeugt. Dieser Wert ist eine probabilistische Interpretation, die nach Berücksichtigung der Korrelationsstärke zwischen den Eingangsvariablen ermittelt wird. Beispielsweise kann die Regression helfen, den Preis eines Hauses basierend auf seiner Lage, Größe usw. vorherzusagen.
Bei der logistischen Regression hat die Ausgabe diskrete Werte, die auf einer Reihe unabhängiger Variablen basieren. Dieses Verfahren kann beim Umgang mit nichtlinearen und mehrfachen Entscheidungsgrenzen ins Wanken geraten. Außerdem ist es nicht flexibel genug, um komplexe Beziehungen in Datensätzen zu erfassen.
2. Klassifizierung
Dabei werden die Daten in Klassen gruppiert. Wenn Sie daran denken, einer Person einen Kredit zu gewähren, können Sie mithilfe der Klassifizierung feststellen, ob eine Person ein Kreditsäumiger wäre oder nicht. Wenn der überwachte Lernalgorithmus Eingabedaten in zwei unterschiedliche Klassen einteilt, wird dies als binäre Klassifizierung bezeichnet. Mehrere Klassifizierungen bedeutet, Daten in mehr als zwei Klassen zu kategorisieren.
3. Naives Bayessches Modell
Das Bayes'sche Klassifikationsmodell wird für große endliche Datensätze verwendet. Es ist eine Methode zum Zuweisen von Klassenbezeichnungen unter Verwendung eines direkten azyklischen Graphen. Der Graph umfasst einen übergeordneten Knoten und mehrere untergeordnete Knoten. Und es wird davon ausgegangen, dass jeder untergeordnete Knoten unabhängig und vom übergeordneten Knoten getrennt ist.
Entscheidungsbäume
Ein Entscheidungsbaum ist ein flussdiagrammähnliches Modell, das bedingte Steueranweisungen enthält, die Entscheidungen und ihre wahrscheinlichen Konsequenzen umfassen. Die Ausgabe bezieht sich auf die Kennzeichnung von unvorhergesehenen Daten.
In der Baumdarstellung entsprechen die Blattknoten den Klassenbezeichnungen und die inneren Knoten den Attributen. Ein Entscheidungsbaum kann verwendet werden, um Probleme mit diskreten Attributen sowie mit booleschen Funktionen zu lösen. Einige der bemerkenswerten Entscheidungsbaumalgorithmen sind ID3 und CART.

4. Random-Forest-Modell
Das Random-Forest-Modell ist eine Ensemble-Methode. Es arbeitet, indem es eine Vielzahl von Entscheidungsbäumen konstruiert und eine Klassifikation der einzelnen Bäume ausgibt. Angenommen, Sie möchten vorhersagen, welche Studenten im Grundstudium beim GMAT – einem Test, der für die Zulassung zu Managementprogrammen für Hochschulabsolventen abgelegt wird – gut abschneiden werden. Ein Random-Forest-Modell würde die Aufgabe angesichts der demografischen und bildungsbezogenen Faktoren einer Gruppe von Schülern erfüllen, die den Test zuvor abgelegt haben.
5. Neuronale Netze
Dieser Algorithmus wurde entwickelt, um Rohdaten zu gruppieren, Muster zu erkennen oder sensorische Daten zu interpretieren. Trotz ihrer vielfältigen Vorteile erfordern neuronale Netze erhebliche Rechenressourcen. Es kann kompliziert werden, ein neuronales Netzwerk anzupassen, wenn es Tausende von Beobachtungen gibt. Er wird auch als „Black-Box“-Algorithmus bezeichnet, da die Interpretation der Logik hinter ihren Vorhersagen eine Herausforderung darstellen kann.
Lesen Sie : Top 10 neuronaler Netzwerkarchitekturen im Jahr 2020
6. Unterstützung von Vektormaschinen
Support Vector Machine (SVM) ist ein überwachter Lernalgorithmus, der im Jahr 1990 entwickelt wurde. Er stützt sich auf die von Vap Nick entwickelte statistische Lerntheorie.
SVM trennt Hyperebenen, was es zu einem diskriminierenden Klassifikator macht. Die Ausgabe wird in Form einer optimalen Hyperebene erzeugt, die neue Beispiele kategorisiert. SVMs sind eng mit dem Kernel-Framework verbunden und werden in verschiedenen Bereichen eingesetzt. Einige Beispiele sind Bioinformatik, Mustererkennung und Multimedia-Informationsabruf.
Vor- und Nachteile von überwachtem Lernen
Mehrere Arten des überwachten Lernens ermöglichen es Ihnen, Daten aus früheren Erfahrungen zu sammeln und zu produzieren. Von der Optimierung von Leistungskriterien bis hin zur Bewältigung realer Probleme hat sich überwachtes Lernen zu einem leistungsstarken Werkzeug im KI-Bereich entwickelt. Es ist auch eine vertrauenswürdigere Methode im Vergleich zum unbeaufsichtigten Lernen, das in einigen Fällen rechnerisch komplex und weniger genau sein kann.
Das überwachte Lernen ist jedoch nicht ohne Grenzen. Für das Training von Klassifikatoren sind konkrete Beispiele erforderlich, und Entscheidungsgrenzen können in Ermangelung der richtigen Beispiele übertrainiert werden. Auch bei der Klassifizierung von Big Data kann es zu Schwierigkeiten kommen.
Zusammenfassen
Das lange und kurze am überwachten Lernen ist, dass es beschriftete Daten verwendet, um eine Maschine zu trainieren. Die Regressionstechniken und Klassifizierungsalgorithmen helfen bei der Entwicklung von Vorhersagemodellen, die äußerst zuverlässig sind und mehrere Anwendungen haben.

Überwachtes Lernen erfordert Experten, um Modelle zu erstellen, zu skalieren und zu aktualisieren. In Ermangelung technischer Kenntnisse kann Brute-Force angewendet werden, um die Eingabevariablen zu bestimmen. Und dies könnte zu ungenauen Ergebnissen führen. Daher ist die Auswahl relevanter Datenmerkmale unerlässlich, damit überwachtes Lernen effektiv funktioniert.
Man sollte zunächst entscheiden, welche Daten für das Trainingsset benötigt werden, die erlernte Funktion und den Algorithmus weiter strukturieren und auch Ergebnisse von Experten und Messungen zusammenstellen. Solche Best Practices können einen großen Beitrag zur Unterstützung der Genauigkeit eines Modells leisten.
Da künstliche Intelligenz und maschinelles Lernen in der heutigen technologieorientierten Welt an Fahrt gewinnen, kann das Wissen über die Arten des überwachten Lernens in jedem Bereich ein bedeutendes Unterscheidungsmerkmal sein. Die obigen Erklärungen würden Ihnen helfen, diesen ersten Schritt zu tun!
Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.
Lernen Sie ML-Kurse von den besten Universitäten der Welt. Erwerben Sie Master-, Executive PGP- oder Advanced Certificate-Programme, um Ihre Karriere zu beschleunigen.
Was bedeutet überwachtes Lernen?
Beim überwachten Lernen lernt eine Maschine mithilfe von „markierten“ Daten. Wenn ein Datensatz sowohl Eingabe- als auch Ausgabeparameter enthält, gilt er als gekennzeichnet. Anders ausgedrückt: Die Informationen sind bereits mit der richtigen Antwort versehen. Bei realen Rechenherausforderungen ist überwachtes maschinelles Lernen sehr nützlich. Das System lernt aus markierten Trainingsdaten, um Ergebnisse für unerwartete Daten vorherzusagen. Daher erfordert das Erstellen und Bereitstellen solcher Modelle das Fachwissen hochqualifizierter Datenwissenschaftler. Datenwissenschaftler nutzen ihr technisches Wissen, um im Laufe der Zeit Modelle zu erstellen, um die Gültigkeit der bereitgestellten Erkenntnisse zu erhalten.
Was ist der Unterschied zwischen Klassifikation und Regression?
Unter Verwendung von Trainingsdaten erzeugt die Regression einen einzigen Ausgabewert. Dies ist eine probabilistische Interpretation, die durch Berücksichtigung der Korrelationsstärke zwischen den Eingabevariablen bestimmt wird. Die Regression kann beispielsweise dabei helfen, den Preis eines Hauses basierend auf seinem Standort, seiner Größe und anderen Faktoren vorherzusagen. Der Akt der Klassifizierung von Daten beinhaltet die Unterteilung in Kategorien. Sie können die Kategorisierung verwenden, um zu bewerten, ob eine Person mit einem Kredit in Verzug gerät oder nicht, wenn Sie erwägen, ihr einen Kredit anzubieten. Eine binäre Klassifizierung tritt auf, wenn ein überwachter Lernalgorithmus Eingabedaten in zwei getrennte Klassen klassifiziert. Mehrfachklassifikationen beziehen sich auf die Aufteilung von Informationen in mehr als zwei Gruppen.
Was ist ein zufälliger Wald?
Eine Ensemble-Methode ist das Random-Forest-Modell. Es funktioniert, indem es eine große Anzahl von Entscheidungsbäumen erstellt und dann die einzelnen Bäume klassifiziert. Angenommen, Sie möchten wissen, welche Universitätsstudenten beim GMAT, einer Prüfung, die für die Zulassung zu Graduate Management-Programmen erforderlich ist, gut abschneiden. Angesichts der demografischen und bildungsbezogenen Merkmale einer Gruppe von Schülern, die den Test zuvor absolviert haben, könnte ein Random-Forest-Modell die Aufgabe erfüllen.