Wprowadzenie do nauki częściowo nadzorowanej [Najlepsze aplikacje we współczesnym świecie]

Opublikowany: 2021-01-29

Uczenie maszynowe było modnym hasłem ostatniej dekady. Obecnie niewiele jest dziedzin, w których magia uczenia maszynowego nie jest widoczna. Zwłaszcza w bardzo lukratywnym biznesie reklamowym uczenie maszynowe jest obecnie stosowane szerzej niż kiedykolwiek.

Za każdym razem, gdy odwiedzasz witrynę, za każdym razem, gdy szukasz określonego terminu w Internecie, generowane dane są „uczone”. Dane te są następnie wykorzystywane do dostarczania ukierunkowanych reklam, zapewniając, że każdy użytkownik otrzymuje różne reklamy, niezależnie od odwiedzanej przez użytkownika strony internetowej.

Spis treści

Jak działa uczenie maszynowe

Jak działa uczenie maszynowe? W swojej pracy uczenie maszynowe jest bardzo podobne do ludzkiego mózgu. Jego dane są stale aktualizowane i zawsze uczy się na nowych informacjach, które otrzymuje. Uczenie maszynowe obejmuje dwa rodzaje zestawów – zestaw testowy i zestaw szkoleniowy. Zestaw treningowy to w zasadzie zestaw danych reprezentujący wszystkie dane, dla których model uczenia maszynowego będzie przewidywał.

Co ważne, dysponujemy informacjami dla zestawów treningowych i testowych, aby przewidzieć pełne dane. Gdy skompilowany model uczenia maszynowego rozpozna wzorzec w zestawie szkoleniowym, jest testowany pod kątem skuteczności w zestawie testowym. To trwa tam iz powrotem, aż model osiągnie określony poziom skuteczności.

Rodzaje uczenia maszynowego

Uczenie maszynowe ma swoje własne typy. Oto dwa główne typy uczenia maszynowego.

Nadzorowana nauka
Nauka nienadzorowana

W swojej wczesnej formie i formie, w jakiej zostało to wyjaśnione w poprzedniej sekcji, uczenie maszynowe było ogólnie synonimem uczenia nadzorowanego, aż do niedawna w uczeniu nadzorowanym. Zarówno zestaw uczący, jak i zestaw testowy będą miały oznaczone dane.

Dane oznaczone etykietą to typ danych, w którym wszystkie ważne pola danych, w tym pole, które ma być przewidywane przez model, są odpowiednio oznakowane, aby model mógł się efektywnie uczyć. Uczenie nadzorowane jest całkowicie oparte na doświadczeniu i jest świetne, jeśli chcesz zoptymalizować wydajność swojego modelu.

Uczenie nienadzorowane to rodzaj uczenia maszynowego, w którym wszystkie dane są nieoznaczone. Zamiast tego model uczenia maszynowego ma wolną rękę w odróżnianiu wzorców spośród dostarczonych mu danych. Nienadzorowane uczenie się często może przynieść nieprzewidywalne wyniki, a nawet pomóc odkryć nowe wzorce w dużych zestawach danych. Dane, które zazwyczaj otrzymujesz, rzadko są oznaczone, a nienadzorowane modele uczenia się są przeznaczone dla danych nieoznaczonych.

Nauka częściowo nadzorowana

Zarówno uczenie nadzorowane, jak i uczenie nienadzorowane ma kilka wad. Największą i najbardziej widoczną wadą nadzorowanego uczenia się jest fakt, że większość danych jest nieoznakowana. Aby nadzorowane uczenie się działało na zbiorze danych, wszystkie dane często muszą zostać wyodrębnione i ręcznie oznaczone, co jest wymagającym procesem i może zniweczyć wszystkie korzyści wynikające z używania uczenia maszynowego na Twoich danych.

Uczenie nienadzorowane nie wymaga danych oznaczonych etykietami, ale baza potencjalnych zastosowań do uczenia czysto nienadzorowanego jest niestety dość ograniczona.

Częściowo nadzorowane uczenie się to rodzaj uczenia maszynowego, który zapewnia doskonałą pośrednią ścieżkę między uczeniem nadzorowanym a uczeniem nienadzorowanym. Trzeba przyznać, że uczenie częściowo nadzorowane skręca nieco w kierunku nadzorowanego końca spektrum uczenia maszynowego. Warunkiem wstępnym każdego częściowo nadzorowanego modelu uczenia się jest zestaw danych nieoznaczonych, z których wyodrębniono niewielką ilość danych i ręcznie oznaczono je etykietami.

Jest to znacząca korzyść w porównaniu z modelem czysto nadzorowanym, w którym wszystkie dane muszą być opatrzone etykietami. Dlatego nauka częściowo nadzorowana wiąże się z oszczędnością kosztów i czasu. W porównaniu z modelem nienadzorowanym, model nadzorowany, jeśli jest używany z nawet niewielką ilością danych oznaczonych etykietami, może zmniejszyć zasoby obliczeniowe i poprawić dokładność modelu.

Założenia uczenia się bez nadzoru

Gdy w grę wchodzi jakiekolwiek użycie danych nieoznaczonych, należy je w jakiś sposób skojarzyć z danymi bazowymi. Podczas korzystania z częściowo nadzorowanego modelu uczenia maszynowego przyjmuje się pewne założenia dotyczące danych. Te założenia są następujące.

Założenie ciągłości: jest to założenie, że punkty na wykresie punktowym reprezentujące wszystkie dane bliżej siebie z większym prawdopodobieństwem mają tę samą etykietę. Jest to również główne założenie powszechnie stosowane w modelach uczenia nadzorowanego. To założenie ułatwia półnadzorowanemu modelowi tworzenie czytelnych granic decyzyjnych.

Założenie klastra: zakłada, że dane mają naturalną skłonność do tworzenia klastrów i że punkty danych, które są częścią tego samego klastra, mają tę samą etykietę. Jednak zastrzeżeniem od tego założenia jest to, że co najmniej dwa klastry mogą również zawierać dane należące do tej samej etykiety. To założenie jest bardzo przydatne w algorytmach klastrowania. Jest to bardzo podobne do poprzedniego założenia i może być traktowane jako szczególny przypadek założenia ciągłości. Założenie skupienia jest bardzo przydatne, gdy wymagane jest określenie granic decyzji, podobnie jak założenie ciągłości.

Założenie o rozmaitości: zakłada, że wymiary rozmaitości przestrzeni wejściowej są znacznie większe niż te, na których leżą dane. Kiedy to założenie zostało przyjęte, oznaczył, a nieoznakowane dane mogą być poznane zgodnie ze wspólnym rozmaitością. Po ustaleniu rozmaitości można zmierzyć gęstość i odległość między punktami danych. Jest to przydatne założenie, gdy liczba wymiarów w danych jest bardzo duża i powtarza się, że liczba wymiarów, które zarządzają kategoryzacją danych według różnych etykiet, będzie stosunkowo mniejsza.

Przeczytaj także: Modele uczenia maszynowego

Zastosowania uczenia się częściowo nadzorowanego

Głównym zarzutem związanym z uczeniem się nienadzorowanym jest to, że liczba potencjalnych zastosowań jest raczej niska. Wyniki uzyskane w modelu nienadzorowanym często mogą być raczej zbędne lub bezużyteczne. Dla porównania, uczenie częściowo nadzorowane ma solidny zestaw aplikacji, w których można je wykorzystać.

Klasyfikacja treści w Internecie: Internet jest ogromną skarbnicą stron internetowych i nie można oczekiwać, że każda strona będzie oznaczona etykietą i będzie zawierała wszystkie dane z wybranej dziedziny. Jednak jednocześnie prawdą jest, że z biegiem lat pewna mniejszość stron internetowych zostanie oznaczona etykietami jednego lub drugiego wymiaru.

Może to służyć do klasyfikacji stron internetowych. Zestawu oznaczonych stron internetowych można użyć do przewidzenia etykiety wszystkich innych potrzebnych stron internetowych. Kilka wyszukiwarek używa częściowo nadzorowanego modelu uczenia się do oznaczania i oceniania stron internetowych w swoich wynikach wyszukiwania, w tym Google.

Analiza obrazu i dźwięku: Analiza obrazów i dźwięku jest jednym z najczęstszych zastosowań częściowo nadzorowanych modeli uczenia się. Ten typ danych jest zwykle nieoznaczony. Ekspertyza ludzka może oznaczać niewielką część danych, zamiast klasyfikować każdy obraz lub fragment dźwięku dla określonej dziedziny w ciągu dni i miesięcy. Po sklasyfikowaniu tej niewielkiej części danych możesz po prostu użyć wytrenowanego algorytmu do sklasyfikowania wszystkich innych danych, które posiadasz.

Klasyfikacja sekwencji białek: Jest to stosunkowo nowe zastosowanie uczenia częściowo nadzorowanego. Sekwencje białkowe zawierają wiele aminokwasów i niepraktyczne jest analizowanie każdej sekwencji białka i klasyfikowanie jej jako jednego lub drugiego typu. Zadanie to można łatwo wykonać, korzystając z nauki półnadzorowanej. Wszystko, czego potrzebujesz, to baza danych już zsekinowanych białek, a sam model może zsekwencjonować resztę.

Wniosek

Uczenie się częściowo nadzorowane oferuje duży umiar wśród zalet i wad uczenia nadzorowanego i nienadzorowanego. Zapewnia również, że duża ilość wygenerowanych lub dostępnych danych może być wykorzystana w jednym lub drugim modelu w celu uzyskania znaczących informacji. Wykorzystanie tego typu modelu prawdopodobnie wzrośnie dopiero w nadchodzących latach.

Uczenie maszynowe to jedna z najbardziej wpływowych technologii na świecie. To duży powód, dla którego jest obecnie tak popularny.

Wiele branż wykorzystuje uczenie maszynowe do różnych celów, więc popyt rośnie z dnia na dzień. Jeśli chcesz dowiedzieć się więcej o karierze w uczeniu maszynowym i sztucznej inteligencji, sprawdź IIIT-B i upGrad's PG Diploma in Machine Learning and AI Program.

Ucz się kursu ML z najlepszych światowych uniwersytetów. Zdobywaj programy Masters, Executive PGP lub Advanced Certificate Programy, aby przyspieszyć swoją karierę.

Poprowadź rewolucję technologiczną napędzaną sztuczną inteligencją

Naucz się zaawansowanego programu certyfikacji w uczeniu maszynowym i głębokim uczeniu