Wzmacnianie uczenia się w ML: jak to działa, modele i typy uczenia się

Opublikowany: 2021-06-11

Spis treści

Co to jest uczenie się przez wzmacnianie?

Wzmacnianie uczenia odnosi się do procesu podejmowania odpowiednich decyzji poprzez odpowiednie modele uczenia maszynowego. Opiera się na procesie uczenia metody uczenia maszynowego. Jest to technika uczenia maszynowego oparta na informacjach zwrotnych, dzięki której agent uczy się zachowywać w środowisku, obserwując swoje błędy i wykonując działania.

Uczenie się ze wzmocnieniem stosuje metodę uczenia się poprzez interakcję i informację zwrotną. Kilka terminów używanych w uczeniu się przez wzmacnianie to:

  • Agent : to uczeń lub osoba podejmująca decyzje podejmuje działania mające na celu otrzymanie nagrody.
  • Środowisko : jest to scenariusz, w którym agent uczy się i wykonuje przyszłe zadania.
  • Akcja : akcje wykonywane przez agenta.
  • Stan : obecna sytuacja
  • Polityka : Funkcja decyzyjna agenta, dzięki której agent decyduje o przyszłych działaniach w oparciu o stan obecny.
  • Nagroda : Zwroty dostarczane przez środowisko agentowi za wykonanie każdej akcji.
  • Wartość : W porównaniu z nagrodą jest to oczekiwany długoterminowy zwrot z rabatem.
  • Funkcja wartości : Oznacza wartość stanu, tj. całkowitą kwotę zwrotu.
  • Aproksymator funkcji : Indukowanie funkcji z przykładów uczących.
    Model środowiska: jest to model, który naśladuje rzeczywiste środowisko do przewidywania wniosków.
  • Metody oparte na modelu : używane do rozwiązywania modeli opartych na zbrojeniu.
  • Wartość Q lub wartość działania : podobna do wartości, ale dodatkowe parametry są traktowane jak bieżące działanie.
  • Proces decyzyjny Markowa : probabilistyczny model sekwencyjnego problemu decyzyjnego.
  • Programowanie dynamiczne : Klasa metod rozwiązywania sekwencyjnych problemów decyzyjnych.

    Uczenie się ze wzmacnianiem dotyczy głównie tego, jak agenci oprogramowania powinni podejmować działania w środowisku. Uczenie się w oparciu o sieci neuronowe pozwala na osiągnięcie złożonego celu.

Jak działa uczenie się przez wzmacnianie?

Poniżej pokazano przykład uczenia się ze wzmocnieniem , pokazujący, jak działa uczenie ze wzmocnieniem.

  • Koty nie rozumieją żadnej formy języka i dlatego należy zastosować inną strategię, aby komunikować się z kotem.
  • Powstaje sytuacja, w której kot zachowuje się na różne sposoby. Kot jest nagradzany rybą, jeśli jest to pożądany sposób. Dlatego kot zachowuje się w ten sam sposób, gdy stanie w obliczu takiej sytuacji, oczekując więcej jedzenia jako nagrody.
  • Scenariusz definiuje proces uczenia się na pozytywnych doświadczeniach.
  • Na koniec kot uczy się również, czego nie robić, poprzez negatywne doświadczenia.

Prowadzi to do następującego wyjaśnienia

  • Kot działa jako agent, ponieważ jest wystawiony na działanie środowiska. W powyższym przykładzie dom jest środowiskiem. Stany mogą przypominać siedzącego lub chodzącego kota.
  • Agent wykonuje akcję, przechodząc z jednego stanu do drugiego, jak przejście z pozycji siedzącej do chodzącej.
  • Akcja jest reakcją agenta. Polityka obejmuje sposób wyboru działania w określonym stanie, jednocześnie oczekując lepszego wyniku w stanie przyszłym.
  • Zmiana stanów może zapewnić nagrodę lub karę.

Kilka punktów do odnotowania w nauce Wzmacniania

  • Należy podać stan początkowy wejścia, od którego rozpocznie się model.
  • Wiele możliwych wyników jest generowanych przez różne rozwiązania konkretnego problemu.
  • Trening metody RL opiera się na wejściu. Po wygenerowaniu danych wyjściowych model zdecyduje, czy go nagrodzić. Dlatego model jest ciągle szkolony.
  • Model ciągle się uczy.
  • O najlepszym rozwiązaniu problemu decyduje maksymalna nagroda, jaką otrzymuje.

Algorytm uczenia się wzmacniania

Istnieją trzy podejścia do wdrażania metody uczenia się przez wzmacnianie.

1. Oparte na wartości

Metoda oparta na wartości obejmuje maksymalizację funkcji wartości V(s). W ramach polityki oczekuje się długoterminowego powrotu obecnego stanu. SARSA i Q Learning to tylko niektóre z algorytmów opartych na wartościach. Podejścia oparte na wartościach są dość stabilne, ponieważ nie są w stanie modelować ciągłego środowiska. Oba algorytmy są proste do zaimplementowania, ale nie potrafią oszacować wartości niewidocznego stanu.

2. Oparte na zasadach

Ten rodzaj metody obejmuje opracowanie polityki, która pomaga zwrócić maksymalną nagrodę poprzez wykonanie każdego działania.

Istnieją dwa rodzaje metod opartych na zasadach:

  • Deterministyczny: Oznacza to, że w dowolnym stanie polityka powoduje to samo działanie.
  • Stochastyczny: prawdopodobieństwo dla każdego działania istnieje określone równaniem

n{a\s) = P\A, = a\S, =S]

Algorytmy oparte na polityce to gradient polityki Monte Carlo (REINFORCE) i deterministyczny gradient polityki (DPG). Podejścia do uczenia się oparte na polityce generują niestabilność, ponieważ charakteryzują się dużą zmiennością.

Algorytm „aktor-krytyczny” jest opracowywany poprzez połączenie podejścia opartego na wartości i opartego na polityce. Parametryzacja zarówno funkcji wartości (krytycznej), jak i polityki (aktor) umożliwia stabilną zbieżność dzięki efektywnemu wykorzystaniu danych uczących.

3. W oparciu o model

Dla każdego środowiska tworzony jest model wirtualny, a agent uczy się na podstawie tego modelu. Budowanie modelu obejmuje etapy próbkowania stanów, podejmowania działań i obserwacji nagród. W każdym stanie środowiska model przewiduje przyszły stan i oczekiwaną nagrodę. Dzięki dostępności modelu opartego na RL, agent może planować działania. Agent uzyskuje możliwość uczenia się, kiedy proces planowania przeplata się z szacowaniem polityki.

Nauka ze wzmacnianiem ma na celu osiągnięcie celu poprzez eksplorację agenta w nieznanym środowisku. Hipoteza RL mówi, że cele można opisać jako maksymalizację nagród. Agent musi być w stanie uzyskać maksymalną nagrodę poprzez zaburzenia stanów w postaci działań. Algorytmy RL można ogólnie podzielić na oparte na modelu i bez modelu.

Uczenie się modeli w zbrojeniu

1. Proces decyzyjny Markowa

Zestaw parametrów stosowanych w procesie decyzyjnym Markowa to

Zestaw działań-A

Zbiór stanów-S

Nagroda-R

Polityka-n

Wartość-V

Proces decyzyjny Markowa to matematyczne podejście do mapowania rozwiązania w uczeniu się przez wzmacnianie.

2. Nauka Q

Ten proces dostarcza agentowi informacji, które działanie należy wykonać. Jest to forma podejścia bez modela. Wartości Q są aktualizowane, co oznacza wartość wykonania akcji „a” w stanie „s”.

Różnica między uczeniem ze wzmacnianiem a uczeniem nadzorowanym

Uczenie nadzorowane to proces uczenia maszynowego, w którym przełożony musi wprowadzić wiedzę do algorytmu uczenia. Główną funkcją superwizora jest zbieranie danych treningowych, takich jak obrazy, klipy audio itp.

Podczas gdy w RL zbiór danych uczących obejmuje głównie zestaw sytuacji i działań. Wzmacnianie uczenia się w uczeniu maszynowym nie wymaga żadnej formy nadzoru. Ponadto połączenie uczenia się ze wzmocnieniem i uczenia głębokiego tworzy podpole głębokie uczenie się ze wzmocnieniem.

Poniżej zestawiono kluczowe różnice między RL a Supervised Learning.

Nauka wzmacniania Nadzorowana nauka
Decyzje podejmowane są sekwencyjnie. Wyjście procesu zależy od stanu wejścia prądowego. Następne wejście będzie zależeć od wyjścia poprzedniego wejścia i tak dalej. Decyzja jest podejmowana na wejściu początkowym lub na wejściu podawanym na początku procesu.
Decyzje są zależne. Dlatego etykietowanie odbywa się na sekwencjach zależnych decyzji. Decyzje są od siebie niezależne. W związku z tym dokonywane jest etykietowanie wszystkich decyzji.
Interakcja z otoczeniem występuje w RL. Brak interakcji z otoczeniem. Proces działa na istniejącym zbiorze danych.
Proces decyzyjny RL jest podobny do procesu decyzyjnego ludzkiego mózgu. Proces podejmowania decyzji jest podobny do decyzji podejmowanej przez ludzki mózg pod okiem przewodnika.
Brak oznakowanego zbioru danych. Oznaczony zbiór danych.
Wcześniejsze szkolenie nie jest wymagane od uczącego się agenta. Przewidziane jest wcześniejsze szkolenie w zakresie przewidywania wyników.
RL jest najlepiej wspierany przez sztuczną inteligencję, gdzie występuje przewaga interakcji międzyludzkich. Nauka nadzorowana jest najczęściej obsługiwana za pomocą aplikacji lub interaktywnych systemów oprogramowania.
Przykład: gra w szachy Przykład: Rozpoznawanie obiektów

Rodzaje zbrojenia

Istnieją dwa rodzaje uczenia się przez wzmacnianie

1. Pozytywny

Pozytywne uczenie się przez wzmacnianie jest definiowane jako zdarzenie wygenerowane z określonego zachowania. Wpływa to pozytywnie na agenta, ponieważ zwiększa siłę i częstotliwość uczenia się. W rezultacie wydajność jest zmaksymalizowana. Dlatego zmiany utrzymują się przez dłuższy czas. Ale nadmierna optymalizacja stanów może wpłynąć na wyniki uczenia się. Dlatego uczenie się przez wzmacnianie nie powinno być zbyt duże.

Zalety pozytywnego wzmocnienia to:

  • Maksymalizacja wydajności.
  • Zmiany utrzymywały się przez dłuższy czas.

2. Negatywne

Negatywne wzmocnienie definiuje się, gdy w warunkach negatywnego stanu zachowanie jest wzmocnione. Minimalny standard wykonania jest określony przez negatywne wzmocnienie

Zalety uczenia się przez wzmocnienie negatywne to:

  • Zwiększa zachowanie.
  • Zapewnij nieposłuszeństwo wobec minimalnego standardu wydajności

Wada uczenia się przez wzmacnianie

  • Zapewnia tylko tyle, aby spełnić minimalne zachowanie.

Wyzwania w uczeniu się przez wzmacnianie

Uczenie ze wzmocnieniem, chociaż nie wymaga nadzoru modelu, nie jest rodzajem uczenia się bez nadzoru. Jest to jednak inna część uczenia maszynowego.

Kilka wyzwań związanych z uczeniem się przez wzmacnianie to:

  • Przygotowanie środowiska symulacyjnego. Zależy to od zadania, które ma zostać wykonane. Stworzenie realistycznego symulatora to nie lada wyzwanie. Model musi rozgryźć każdą minutę i ważny szczegół otoczenia.
  • Zaangażowanie projektowania funkcji i nagród jest bardzo ważne.
  • Parametry mogą mieć wpływ na szybkość uczenia się.
  • Przeniesienie modelu do środowiska szkoleniowego.
  • Kontrolowanie agenta przez sieci neuronowe to kolejne wyzwanie, ponieważ jedyna komunikacja z sieciami neuronowymi odbywa się poprzez system nagród i kar. Czasami może to skutkować katastrofalnym zapomnieniem, czyli usunięciem starej wiedzy podczas zdobywania nowej.
  • Osiągnięcie lokalnego minimum jest wyzwaniem dla uczenia się przez wzmacnianie.
  • W warunkach rzeczywistego środowiska może występować obserwacja częściowa.
  • Należy uregulować stosowanie uczenia się przez wzmacnianie. Nadmiar RL prowadzi do przeciążenia stanów. Może to prowadzić do pogorszenia wyników.
  • Rzeczywiste środowiska są niestacjonarne.

Zastosowania zbrojenia

  • W obszarze Robotyka dla automatyki przemysłowej.
  • RL może być stosowany w planowaniu strategicznym przedsiębiorstw.
  • RL może być używany w technikach przetwarzania danych obejmujących algorytmy uczenia maszynowego.
  • Może być używany do niestandardowego przygotowania materiałów szkoleniowych dla studentów zgodnie z ich wymaganiami.
  • RL może być stosowany do sterowania samolotami i ruchem robotów.

W dużych środowiskach zbrojenie można zastosować w następujących sytuacjach:

  • Jeśli rozwiązanie analityczne nie jest dostępne dla znanego modelu środowiska.
  • Jeśli zapewniony jest tylko model symulacyjny środowiska.
  • Gdy istnieje tylko jeden sposób zbierania danych, którym jest interakcja ze środowiskiem.

Jaki jest pożytek z uczenia się przez wzmacnianie?

  • Uczenie się przez wzmacnianie pomaga w identyfikacji sytuacji, która wymaga działania.
  • Zastosowanie RL pomaga w poznaniu, które działanie przynosi najwyższą nagrodę.
  • Przydatność RL polega na zapewnieniu agentowi funkcji nagrody.
  • Wreszcie, RL pomaga w identyfikacji metody prowadzącej do większych nagród.

Wniosek

RL nie można zastosować do każdej sytuacji. Istnieją pewne ograniczenia w jego użyciu.

  • Dostępność wystarczającej ilości danych pozwala na zastosowanie podejścia nadzorowanego uczenia się zamiast metody RL.
  • Obliczenie RL jest dość czasochłonne, szczególnie w przypadkach, gdy rozważane jest duże środowisko.

Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, zapoznaj się z programem IIIT-B i upGrad Executive PG w zakresie uczenia maszynowego i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznych szkoleń, ponad 30 studiów przypadków i zadań, IIIT Status -B Alumni, ponad 5 praktycznych praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Jak wygląda przyszłość pracy z uczeniem maszynowym?

Przyjęcie uczenia maszynowego szybko wzrosło w różnych branżach. Począwszy od sektora finansowego i inwestycyjnego po rozrywkę, media, motoryzację, opiekę zdrowotną i gry – trudno dziś znaleźć jakąkolwiek branżę, która nie wykorzystuje sztucznej inteligencji i uczenia maszynowego. W konsekwencji zakres zadań uczenia maszynowego jest znacznie wyższy niż w przypadku wielu innych zadań technologicznych. Jak wynika z raportów firmy Gartner, do końca 2022 r. na rynku pojawi się około 2,3 miliona miejsc pracy związanych z uczeniem maszynowym i sztuczną inteligencją. Ponadto oczekuje się, że wynagrodzenie oferowane profesjonalistom w tej dziedzinie będzie znacznie wyższe, a pensje początkowe wyniosą 9 lakhów INR rocznie.

Czym jest chmura AI?

Chmura AI to stosunkowo nowa koncepcja, którą organizacje zaczęły ostatnio podchwytywać. Ta koncepcja łączy sztuczną inteligencję i przetwarzanie w chmurze i jest napędzana przez dwa czynniki. Oprogramowanie i narzędzia AI zapewniają nową i ulepszoną wartość dodaną do przetwarzania w chmurze, które odgrywa obecnie coraz większą rolę we wdrażaniu sztucznej inteligencji. Chmura AI to współdzielona infrastruktura do określonych przypadków użycia, która jest jednocześnie wykorzystywana przez różne projekty i obciążenia. Największą zaletą chmury AI jest to, że skutecznie łączy sprzęt AI i oprogramowanie open source, aby zapewnić klientom (przedsiębiorstwom) AI SaaS w konfiguracji chmury hybrydowej.

Gdzie jest używany algorytm uczenia się przez wzmacnianie?

Algorytmy uczenia się ze wzmacnianiem mają różne zastosowania, takie jak planowanie strategii biznesowej, robotyka do automatyzacji procesów przemysłowych, sterowanie samolotami i zrobotyzowane sterowanie ruchem, uczenie maszynowe, opracowywanie niestandardowego systemu szkoleniowego dla studentów, przetwarzanie danych i wiele innych. Korzystanie z algorytmu uczenia się przez wzmacnianie jest szczególnie skuteczne w takich przypadkach, ponieważ może łatwo pomóc w odkryciu sytuacji, które faktycznie wymagają działania, oraz działań, które przynoszą najwyższe nagrody w danym okresie. Jednak uczenie ze wzmocnieniem nie powinno być stosowane, gdy istnieje wystarczająca ilość danych, aby zaoferować rozwiązanie wykorzystujące metodę uczenia nadzorowanego.