6 rodzajów nadzorowanego uczenia się, o których musisz wiedzieć w 2022 r.

Opublikowany: 2021-01-10

Uczenie maszynowe jest jednym z najczęstszych zastosowań sztucznej inteligencji. Maszyna uczy się wykonywania zadań na podstawie wprowadzonych do niej danych. A wraz z doświadczeniem poprawia się jego wydajność w danym zadaniu. Uczenie maszynowe obejmuje techniki uczenia nadzorowanego, nienadzorowanego i wzmocnionego. Przeczytaj więcej o rodzajach uczenia maszynowego.

W tym artykule przyjrzymy się różnym rodzajom nadzorowanego uczenia się.

Spis treści

Co to jest uczenie nadzorowane?

W uczeniu nadzorowanym maszyna jest szkolona przy użyciu „oznaczonych” danych. Mówi się, że zestawy danych są etykietowane, gdy zawierają zarówno parametry wejściowe, jak i wyjściowe. Innymi słowy, dane zostały już oznaczone poprawną odpowiedzią.

Tak więc technika naśladuje środowisko w klasie, w którym uczeń uczy się w obecności przełożonego lub nauczyciela. Z drugiej strony, nienadzorowane algorytmy uczenia pozwalają modelom odkrywać informacje i uczyć się samodzielnie.

Nadzorowane uczenie maszynowe jest niezwykle pomocne w rozwiązywaniu rzeczywistych problemów obliczeniowych. Algorytm przewiduje wyniki dla nieprzewidzianych danych, ucząc się na podstawie oznaczonych danych treningowych. Dlatego do zbudowania i wdrożenia takich modeli potrzebni są wysoko wykwalifikowani naukowcy zajmujący się danymi. Z biegiem czasu naukowcy zajmujący się danymi wykorzystują również swoją wiedzę techniczną do przebudowy modeli, aby zachować integralność uzyskanych informacji.

Jak to działa?

Na przykład chcesz wyszkolić maszynę w przewidywaniu czasu dojazdu między biurem a domem. Najpierw utworzysz zestaw danych oznaczonych etykietami, taki jak pogoda, pora dnia, wybrana trasa itp., który będzie zawierał dane wejściowe. A wynikiem będzie szacowany czas podróży powrotnej do domu w określonym dniu.

Gdy utworzysz zestaw treningowy oparty na odpowiednich czynnikach, maszyna zobaczy relacje między punktami danych i użyje ich do ustalenia czasu potrzebnego na powrót do domu. Na przykład aplikacja mobilna może poinformować Cię, że czas podróży wydłuży się w przypadku intensywnych opadów deszczu.

Maszyna może również zobaczyć inne połączenia w oznaczonych danych, na przykład czas, kiedy wychodzisz z pracy. Możesz dotrzeć do domu wcześniej, jeśli zaczniesz, zanim na drogach pojawi się ruch w godzinach szczytu. Przeczytaj więcej, jeśli chcesz wiedzieć, jak działa nienadzorowane uczenie maszynowe.

Spróbujmy teraz zrozumieć nadzorowane uczenie się za pomocą innego przykładu z życia. Załóżmy, że masz kosz z owocami i trenujesz maszynę z różnymi rodzajami owoców. Dane szkoleniowe mogą obejmować następujące scenariusze:

Jeśli obiekt jest koloru czerwonego, okrągły i ma wgłębienie na górze, oznacz go jako „Jabłko”
Jeśli przedmiot ma zielonkawo-żółty kolor i ma kształt zakrzywionego walca, oznacz go jako „banan”

Następnie podajesz nowy obiekt (dane testowe) i prosisz maszynę o rozpoznanie, czy jest to banan czy jabłko. Będzie uczyć się na podstawie danych treningowych i stosować wiedzę do klasyfikowania owoców według wprowadzonych kolorów i kształtów.

Różne rodzaje nadzorowanego uczenia się

1. Regresja

W regresji tworzona jest pojedyncza wartość wyjściowa przy użyciu danych uczących. Wartość ta jest interpretacją probabilistyczną, którą ustala się po uwzględnieniu siły korelacji między zmiennymi wejściowymi. Na przykład regresja może pomóc przewidzieć cenę domu na podstawie jego lokalizacji, wielkości itp.

W regresji logistycznej dane wyjściowe mają wartości dyskretne oparte na zestawie zmiennych niezależnych. Ta metoda może się gubić, gdy mamy do czynienia z nieliniowymi i wielokrotnymi granicami decyzyjnymi. Ponadto nie jest wystarczająco elastyczny, aby uchwycić złożone relacje w zestawach danych.

2. Klasyfikacja

Polega na grupowaniu danych w klasy. Jeśli myślisz o udzieleniu kredytu osobie, możesz użyć klasyfikacji, aby określić, czy dana osoba byłaby osobą niespłacającą pożyczki. Gdy algorytm uczenia nadzorowanego przypisuje dane wejściowe do dwóch odrębnych klas, nazywa się to klasyfikacją binarną. Wiele klasyfikacji oznacza kategoryzowanie danych na więcej niż dwie klasy.

3. Naiwny model bayesowski

Bayesowski model klasyfikacji jest używany dla dużych skończonych zbiorów danych. Jest to metoda przypisywania etykiet klas za pomocą bezpośredniego grafu acyklicznego. Wykres składa się z jednego węzła nadrzędnego i wielu węzłów potomnych. Zakłada się, że każdy węzeł potomny jest niezależny i oddzielony od rodzica.

Drzewa decyzyjne

Drzewo decyzyjne to model przypominający schemat blokowy, który zawiera warunkowe instrukcje sterujące, zawierające decyzje i ich prawdopodobne konsekwencje. Dane wyjściowe dotyczą etykietowania nieprzewidzianych danych.

W reprezentacji drzewa węzły liści odpowiadają etykietom klas, a węzły wewnętrzne reprezentują atrybuty. Drzewo decyzyjne może służyć do rozwiązywania problemów z atrybutami dyskretnymi oraz funkcjami boolowskimi. Niektóre z godnych uwagi algorytmów drzew decyzyjnych to ID3 i CART.

4. Losowy model lasu

Losowy model lasu jest metodą zespołową. Działa poprzez konstruowanie wielu drzew decyzyjnych i generuje klasyfikację poszczególnych drzew. Załóżmy, że chcesz przewidzieć, którzy studenci studiów licencjackich będą dobrze sobie radzić w GMAT – teście zdawanym w celu przyjęcia na studia magisterskie. Losowy model lasu spełniłby zadanie, biorąc pod uwagę czynniki demograficzne i edukacyjne grupy uczniów, którzy wcześniej przystąpili do testu.

5. Sieci neuronowe

Algorytm ten jest przeznaczony do grupowania nieprzetworzonych danych wejściowych, rozpoznawania wzorców lub interpretacji danych sensorycznych. Pomimo wielu zalet sieci neuronowe wymagają znacznych zasobów obliczeniowych. W przypadku tysięcy obserwacji dopasowanie sieci neuronowej może być skomplikowane. Jest również nazywany algorytmem „czarnej skrzynki”, ponieważ interpretacja logiki stojącej za ich przewidywaniami może być trudna.

Przeczytaj : 10 najlepszych architektur sieci neuronowych w 2020 r.

6. Wsparcie maszyn wektorowych

Support Vector Machine (SVM) to nadzorowany algorytm uczenia opracowany w 1990 roku. Wywodzi się z statystycznej teorii uczenia się opracowanej przez Vap Nicka.

SVM oddziela hiperplany, co czyni go klasyfikatorem dyskryminacyjnym. Dane wyjściowe są tworzone w formie optymalnej hiperpłaszczyzny, która kategoryzuje nowe przykłady. Maszyny SVM są ściśle powiązane z frameworkiem jądra i używane w różnych dziedzinach. Niektóre przykłady obejmują bioinformatykę, rozpoznawanie wzorców i wyszukiwanie informacji multimedialnych.

Plusy i minusy nadzorowanego uczenia się

Kilka rodzajów nadzorowanego uczenia się umożliwia zbieranie i generowanie danych z poprzednich doświadczeń. Od optymalizacji kryteriów wydajności po rozwiązywanie rzeczywistych problemów, nadzorowane uczenie się stało się potężnym narzędziem w dziedzinie sztucznej inteligencji. Jest to również metoda bardziej godna zaufania w porównaniu z nauką bez nadzoru, która w niektórych przypadkach może być skomplikowana obliczeniowo i mniej dokładna.

Jednak uczenie nadzorowane nie jest pozbawione ograniczeń. Do szkolenia klasyfikatorów potrzebne są konkretne przykłady, a w przypadku braku właściwych przykładów można przetrenować granice decyzyjne. Trudności mogą też pojawić się w klasyfikacji big data.

Podsumowując

Długie i krótkie uczenie nadzorowane polega na tym, że wykorzystuje oznakowane dane do uczenia maszyny. Techniki regresji i algorytmy klasyfikacji pomagają w tworzeniu modeli predykcyjnych, które są wysoce niezawodne i mają wiele zastosowań.

Uczenie nadzorowane wymaga od ekspertów budowania, skalowania i aktualizowania modeli. W przypadku braku biegłości technicznej do określenia zmiennych wejściowych można zastosować metodę brute-force. A to może spowodować niedokładne wyniki. Tak więc wybór odpowiednich funkcji danych jest niezbędny, aby nadzorowane uczenie się działało efektywnie.

Należy najpierw zdecydować, jakie dane są wymagane dla zbioru uczącego, kontynuować strukturę wyuczonej funkcji i algorytmu, a także zebrać wyniki ekspertów i pomiarów. Takie najlepsze praktyki mogą znacznie zwiększyć dokładność modelu.

Ponieważ sztuczna inteligencja i uczenie maszynowe nabierają tempa w dzisiejszym zorientowanym na technologię świecie, znajomość rodzajów nadzorowanego uczenia się może być istotnym wyróżnikiem w każdej dziedzinie. Powyższe wyjaśnienia pomogą ci zrobić pierwszy krok!

Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji , który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Ucz się kursu ML z najlepszych światowych uniwersytetów. Zdobywaj programy Masters, Executive PGP lub Advanced Certificate Programy, aby przyspieszyć swoją karierę.

Jakie jest znaczenie nadzorowanego uczenia się?

Maszyna uczy się przy użyciu „oznaczonych” danych w uczeniu nadzorowanym. Gdy zestaw danych zawiera zarówno parametry wejściowe, jak i wyjściowe, uważa się go za oznaczony. Innymi słowy, informacja została już oznaczona poprawną odpowiedzią. W rzeczywistych wyzwaniach obliczeniowych nadzorowane uczenie maszynowe jest bardzo przydatne. System uczy się na podstawie oznaczonych danych treningowych, aby przewidywać wyniki dla nieoczekiwanych danych. W rezultacie budowanie i wdrażanie takich modeli wymaga specjalistycznej wiedzy wysoko wykwalifikowanych naukowców zajmujących się danymi. Naukowcy zajmujący się danymi wykorzystują swoją wiedzę techniczną do konstruowania modeli w czasie, aby zachować wiarygodność dostarczonych informacji.

Jaka jest różnica między klasyfikacją a regresją?

Korzystając z danych uczących, regresja generuje pojedynczą wartość wyjściową. Jest to interpretacja probabilistyczna, która jest określana przez uwzględnienie siły korelacji między zmiennymi wejściowymi. Na przykład regresja może pomóc w prognozowaniu ceny domu na podstawie jego lokalizacji, wielkości i innych czynników. Czynność klasyfikowania danych pociąga za sobą podział na kategorie. Możesz użyć kategoryzacji, aby ocenić, czy dana osoba nie spłaci pożyczki, jeśli rozważasz zaoferowanie jej kredytu. Klasyfikacja binarna występuje, gdy nadzorowany algorytm uczenia klasyfikuje dane wejściowe do dwóch oddzielnych klas. Wielokrotna klasyfikacja odnosi się do podziału informacji na więcej niż dwie grupy.

Czym jest losowy las?

Metodą zespołową jest losowy model lasu. Działa poprzez tworzenie dużej liczby drzew decyzyjnych, a następnie klasyfikowanie poszczególnych drzew. Powiedzmy, że chcesz wiedzieć, którzy studenci dobrze sobie poradzą na GMAT, egzaminie wymaganym do przystąpienia do programów zarządzania absolwentami. Biorąc pod uwagę cechy demograficzne i edukacyjne grupy uczniów, którzy wcześniej przystąpili do testu, losowy model lasu mógłby wykonać zadanie.