Învățare prin consolidare în ML: Cum funcționează, modele și tipuri de învățare
Publicat: 2021-06-11Cuprins
Ce este învățarea prin întărire?
Învățarea prin consolidare se referă la procesul de luare a deciziilor adecvate prin modele adecvate de învățare automată. Se bazează pe procesul de instruire a unei metode de învățare automată. Este o tehnică de învățare automată bazată pe feedback, prin care un agent învață să se comporte într-un mediu observându-și greșelile și efectuând acțiunile.
Învățarea prin întărire aplică metoda de învățare prin Interacțiune și feedback. Câteva dintre terminologiile folosite în învățarea prin întărire sunt:
- Agent : este cel care învață sau decidentul care efectuează acțiuni pentru a primi o recompensă.
- Mediu : este scenariul în care un agent învață și îndeplinește sarcini viitoare.
- Acțiune : acțiuni care sunt efectuate de agent.
- Stare : situația actuală
- Politică : Funcția de luare a deciziilor a unui agent prin care agentul decide acțiunea viitoare pe baza stării curente.
- Recompensă : returnări oferite de mediu unui agent pentru efectuarea fiecărei acțiuni.
- Valoare : În comparație cu recompensă, este rentabilitatea așteptată pe termen lung cu o reducere.
- Funcția de valoare : Indică valoarea unei stări, adică valoarea totală a rentabilității.
- Aproximator de funcție : Inducerea unei funcții din exemple de antrenament.
Modelul mediului: este un model care imită mediul real pentru prezicerea inferențelor. - Metode bazate pe model : utilizate pentru rezolvarea modelelor bazate pe armare.
- Valoarea Q sau valoarea acțiunii : similară cu valoarea, dar parametrii suplimentari sunt considerați ca acțiunea curentă.
- Procesul de decizie Markov : Un model probabilistic al problemei de decizie secvențială.
- Programare dinamică : Clasă de metode de rezolvare a problemelor de decizie secvențială.
Învățarea prin consolidare se preocupă în principal de modul în care agenții software ar trebui să ia acțiuni într-un mediu. Învățarea bazată pe rețele neuronale permite atingerea unui obiectiv complex.
Cum funcționează învățarea prin întărire?
Mai jos este prezentat un exemplu de învățare prin întărire, care arată cum funcționează învățarea prin întărire.
- Pisicile nu înțeleg nicio formă de limbaj și, prin urmare, trebuie urmată o strategie diferită pentru a comunica cu pisica.
- Se creează o situație în care pisica acționează în diverse moduri. Pisica este răsplătită cu pește dacă este modul dorit. Prin urmare, pisica se comportă în același mod ori de câte ori se confruntă cu această situație, așteptând mai multă hrană drept recompensă.
- Scenariul definește procesul de învățare din experiențe pozitive.
- În cele din urmă, pisica învață și ce să nu facă prin experiențe negative.
Acest lucru duce la următoarea explicație
- Pisica acționează ca agent atunci când este expusă unui mediu. În exemplul menționat mai sus, casa este mediul. Statele ar putea fi ceva asemănător cu pisica care stă sau merge.
- Agentul efectuează o acțiune prin tranzitarea de la o stare la alta, cum ar fi trecerea dintr-o poziție așezată într-o poziție de mers.
- Acțiunea este reacția agentului. Politica include metoda de selectare a unei acțiuni într-o anumită stare, așteptând în același timp un rezultat mai bun în starea viitoare.
- Tranziția statelor ar putea oferi o recompensă sau o penalizare.
Câteva puncte de remarcat în învățarea prin întărire
- Ar trebui furnizată o stare inițială de intrare de la care să pornească modelul.
- Multe rezultate posibile sunt generate prin soluții variate la o anumită problemă.
- Antrenamentul metodei RL se bazează pe intrare. După generarea rezultatelor, modelul va decide dacă îl recompensează pe model. Prin urmare, modelul continuă să se antreneze.
- Modelul continuă să învețe.
- Cea mai bună soluție pentru o problemă este decisă cu privire la recompensa maximă pe care o primește.
Algoritmul de învățare prin întărire
Există trei abordări pentru implementarea unei metode de învățare prin întărire.
1. Bazat pe valoare
Metoda bazată pe valoare implică maximizarea funcției de valoare V(s). Așteptările unei reveniri pe termen lung a stării actuale sunt așteptate în cadrul unei politici. SARSA și Q Learning sunt câțiva dintre algoritmii bazați pe valoare. Abordările bazate pe valoare sunt destul de stabile, deoarece nu sunt capabile să modeleze un mediu continuu. Ambii algoritmi sunt simplu de implementat, dar nu au putut estima valorile unei stări nevăzute.
2. Bazat pe politici
Acest tip de metodă implică dezvoltarea unei politici care ajută la returnarea unei recompense maxime prin efectuarea fiecărei acțiuni.
Există două tipuri de metode bazate pe politici:
- Determinist: Aceasta înseamnă că în orice stat politica produce aceeași acțiune.
- Stochastic: există o probabilitate pentru fiecare acțiune definită de ecuație
n{a\s) = P\A, = a\S, =S]
Algoritmii bazați pe politici sunt gradientul de politică Monte Carlo (REINFORCE) și gradientul de politică deterministă (DPG). Abordările bazate pe politici ale învățării generează instabilități, deoarece acestea suferă de variații mari.
Un algoritm „critic pe actor” este dezvoltat printr-o combinație a abordării bazate pe valoare și a abordărilor bazate pe politici. Parametizarea atât a funcției de valoare (critic) cât și a politicii (actor) permite o convergență stabilă prin utilizarea eficientă a datelor de antrenament.
3. Bazat pe model
Se creează un model virtual pentru fiecare mediu și agentul învață pe baza modelului respectiv. Construirea modelului include etapele de eșantionare a stărilor, luarea de acțiuni și observarea recompenselor. La fiecare stare dintr-un mediu, modelul prezice starea viitoare și recompensa așteptată. Odată cu disponibilitatea modelului bazat pe RL, un agent poate planifica acțiunile. Agentul capătă capacitatea de a învăța când procesul de planificare este împletit cu estimarea politicii.
Învățarea prin consolidare urmărește atingerea unui obiectiv prin explorarea unui agent într-un mediu necunoscut. O ipoteză a RL afirmă că obiectivele pot fi descrise ca maximizarea recompenselor. Agentul trebuie să fie capabil să obțină recompensa maximă prin perturbarea stărilor sub formă de acțiuni. Algoritmii RL pot fi clasificați în general în bazați pe model și fără model.
Modele de învățare în întărire
1. Procesul de decizie Markov
Setul de parametri utilizați într-un proces de decizie Markov sunt
Set de acțiuni-A
Set de stări-S
Recompensa-R
Politica-n
Valoarea-V
Procesul de decizie Markov este abordarea matematică pentru maparea unei soluții în învățarea prin întărire.
2. Învățare Q
Acest proces furnizează informații agentului care informează cu ce acțiune să continue. Este o formă de abordare fără model. Valorile Q continuă să se actualizeze, indicând valoarea efectuării unei acțiuni „a” în starea „s”.
Diferența dintre învățarea prin întărire și învățarea supravegheată
Învățarea supravegheată este un proces de învățare automată prin care un supervizor este necesar să introducă cunoștințele într-un algoritm de învățare. Funcția principală a supervizorului include colectarea datelor de antrenament, cum ar fi imagini, clipuri audio etc.
În timp ce în RL setul de date de antrenament include în mare parte setul de situații și acțiuni. Învățarea prin consolidare în învățarea automată nu necesită nicio formă de supraveghere. De asemenea, combinația dintre învățarea prin întărire și învățarea profundă produce subcâmpul învățarea prin consolidare profundă.
Diferențele cheie dintre RL și învățarea supravegheată sunt tabulate mai jos.
Consolidarea învățării | Învățare supravegheată |
Deciziile sunt luate secvenţial. Ieșirea procesului depinde de starea intrării curente. Următoarea intrare va depinde de ieșirea intrării anterioare și așa mai departe. | Decizia se ia la intrarea inițială sau la intrarea alimentată la începutul procesului. |
Deciziile sunt dependente. Prin urmare, etichetarea se face la secvențe de decizii dependente. | Deciziile sunt independente unele de altele. Prin urmare, se face etichetarea tuturor deciziilor. |
Interacțiunea cu mediul are loc în RL. | Fără interacțiune cu mediul. Procesul funcționează pe setul de date existent. |
Procesul decizional al unui RL este similar cu procesul decizional al unui creier uman. | Procesul de luare a deciziilor este similar cu decizia luată de un creier uman sub supravegherea unui ghid. |
Niciun set de date etichetat. | Set de date etichetat. |
Agentului de învățare nu este necesară pregătirea anterioară. | Se oferă instruire anterioară pentru predicția rezultatelor. |
RL este cel mai bine sprijinit cu AI, unde există o prevalență a interacțiunii umane. | Învățarea supravegheată este operată în cea mai mare parte cu aplicații sau sisteme software interactive. |
Exemplu: joc de șah | Exemplu: recunoașterea obiectelor |
Tipuri de armare
Există două tipuri de învățare prin întărire
1. Pozitiv
Învățarea prin întărire pozitivă este definită ca un eveniment generat dintr-un anumit comportament. Acest lucru are un impact pozitiv asupra agentului, deoarece crește puterea și frecvența învățării. Ca rezultat, performanța este maximizată. Prin urmare, schimbările sunt susținute pentru o perioadă mai lungă de timp. Dar, supraoptimizarea stărilor poate afecta rezultatele învățării. Prin urmare, învățarea prin întărire nu ar trebui să fie prea mult.
Avantajele întăririi pozitive sunt:
- Maximizarea performanței.
- Schimbări susținute pe o perioadă mai lungă.
2. Negativ
Întărirea negativă este definită atunci când, în circumstanțe de condiție negativă, comportamentul este întărit. Standardul minim de performanță este definit prin întărire negativă
Avantajele învățării prin întărire negativă sunt:
- Crește comportamentul.
- Oferiți sfidare la un standard minim de performanță
Dezavantajul învățării prin întărire
- Oferă doar suficient pentru a îndeplini comportamentul minim.
Provocări în învățarea prin consolidare
Învățarea prin întărire, deși nu necesită supravegherea modelului, nu este un tip de învățare nesupravegheată. Cu toate acestea, este o parte diferită a învățării automate.
Câteva provocări asociate învățării prin întărire sunt:
- Pregătirea mediului de simulare. Aceasta depinde de sarcina care urmează să fie efectuată. Crearea unui simulator realist este o sarcină provocatoare. Modelul trebuie să descopere fiecare minut și detaliu important al mediului.
- Implicarea designului caracteristicilor și recompenselor este foarte importantă.
- Viteza de învățare poate fi afectată de parametri.
- Transferarea modelului în mediul de antrenament.
- Controlul agentului prin rețele neuronale este o altă provocare, deoarece singura comunicare cu rețelele neuronale este prin sistemul de recompense și penalități. Uneori, acest lucru poate duce la uitarea catastrofală, adică ștergerea cunoștințelor vechi în timp ce dobândiți cunoștințe noi.
- Atingerea unui minim local este o provocare pentru învățare prin consolidare.
- În condițiile unui mediu real, observația parțială poate fi prezentă.
- Aplicarea învățării prin întărire ar trebui reglementată. O cantitate în exces de RL duce la supraîncărcarea stărilor. Acest lucru ar putea duce la o diminuare a rezultatelor.
- Mediile reale sunt non-staționare.
Aplicații ale armăturii
- În domeniul Robotică pentru automatizări industriale.
- RL poate fi folosit în planificarea strategică a afacerilor.
- RL poate fi utilizat în tehnicile de procesare a datelor care implică algoritmi de învățare automată.
- Poate fi folosit pentru pregătirea personalizată a materialelor de instruire pentru studenți, conform cerințelor acestora.
- RL poate fi aplicat în controlul aeronavelor și mișcării roboților.
În medii mari, Armarea poate fi aplicată în următoarele situații
- Dacă nu este disponibilă o soluție analitică pentru un model cunoscut de mediu.
- Dacă este furnizat doar un model de simulare al mediului.
- Când există o singură modalitate de a colecta datele, care este interacțiunea cu mediul.
La ce folosește învățarea prin întărire?
- Învățarea prin întărire ajută la identificarea situației care necesită o acțiune.
- Aplicarea RL ajută la cunoașterea acțiunii care dă cea mai mare recompensă.
- Utilitatea RL constă în oferirea agentului cu o funcție de recompensă.
- În cele din urmă, RL ajută la identificarea metodei care duce la recompense mai mari.
Concluzie
RL nu poate fi aplicat în orice situație. Există anumite limitări în utilizarea sa.
- Disponibilitatea unor date suficiente permite utilizarea unei abordări de învățare supravegheată mai degrabă decât a unei metode RL.
- Calculul RL este destul de consumator de timp, mai ales în cazurile în care se ia în considerare un mediu mare.
Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Programul Executive PG de la IIIT-B și upGrad în Învățare automată și IA, care este conceput pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz și sarcini, IIIT -B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.
Cum arată viitorul pentru joburile de învățare automată?
Adoptarea învățării automate a crescut rapid în diferite verticale din industrie astăzi. Începând cu sectorul finanțelor și al investițiilor, până la divertisment, media, automobile, asistență medicală și jocuri – este greu de găsit vreo industrie care să nu folosească AI și învățarea automată astăzi. În consecință, domeniul de aplicare al joburilor de învățare automată este semnificativ mai mare decât multe alte joburi tehnologice. Conform rapoartelor de la Gartner, până la sfârșitul anului 2022, se estimează că 2,3 milioane de locuri de muncă de învățare automată și AI vor fi pe piață. Mai mult, compensația oferită profesioniștilor din acest domeniu este, de asemenea, de așteptat să fie semnificativ mai mare, cu salariile de pornire variind la 9 lakh INR pe an.
Ce este un cloud AI?
Cloud AI este un concept relativ nou pe care organizațiile au început să-l ia recent. Acest concept combină inteligența artificială și cloud computing și este condus de doi factori. Software-ul și instrumentele AI oferă un plus de valoare nouă și îmbunătățită cloud computing, care joacă acum un rol din ce în ce mai important în adoptarea inteligenței artificiale. Cloudul AI cuprinde infrastructură partajată pentru cazuri de utilizare specifice, care sunt valorificate simultan de diverse proiecte și sarcini de lucru. Cel mai mare avantaj al cloud-ului AI este că reunește cu succes hardware-ul AI și software-ul open-source pentru a oferi clienților (întreprinderilor) AI SaaS într-o configurație de cloud hibrid.
Unde este folosit algoritmul de învățare prin întărire?
Algoritmii de învățare prin consolidare vin cu diverse aplicații precum planificarea strategiei de afaceri, robotica pentru automatizarea proceselor industriale, controlul aeronavelor și controlul mișcării robotizate, învățarea automată, dezvoltarea unui sistem de instruire personalizat pentru studenți, procesarea datelor și multe altele. Utilizarea unui algoritm de învățare prin întărire este deosebit de eficientă în aceste cazuri, deoarece poate ajuta cu ușurință la descoperirea situațiilor care necesită de fapt acțiune și a acțiunilor care vin cu cele mai mari recompense într-o perioadă. Cu toate acestea, învățarea prin consolidare nu ar trebui aplicată atunci când există date ample pentru a oferi o soluție folosind o metodă de învățare supravegheată.