Învățare unică cu rețeaua Siamese [Pentru recunoaștere facială]
Publicat: 2021-02-08Următorul articol vorbește despre necesitatea utilizării învățării One-shot împreună cu variațiile și dezavantajele acesteia.
Pentru început, pentru a antrena orice model de deep learning, avem nevoie de o cantitate mare de date, astfel încât modelul nostru să îndeplinească eficient sarcina de predicție sau clasificare dorită. De exemplu, detectarea unui câine din imagini va necesita să antrenați un model de rețea neuronală pe sute și mii de imagini de câine și non-câine pentru ca acesta să distingă cu precizie una de alta. Cu toate acestea, acest model de rețea neuronală nu va funcționa dacă este antrenat pe una sau foarte puține date de antrenament.
Din cauza lipsei de date, extragerea caracteristicilor relevante la diferite straturi devine dificilă. Modelul nu va putea să se generalizeze bine între diferitele clase, afectând astfel performanța generală.
Pentru ilustrare, luați în considerare exemplul recunoașterii faciale într-un aeroport. În acest sens, nu avem libertatea de a ne antrena modelul de sute și mii de imagini ale fiecărei persoane care conțin expresii diferite, iluminare de fundal etc. Cu mai mult de mii de pasageri care sosesc zilnic, este o sarcină imposibilă! În plus, stocarea unei astfel de cantități uriașe de date crește costul.
Pentru a aborda problema de mai sus, folosim o tehnică în care sarcinile de clasificare sau categorizare pot fi realizate cu unul sau câteva exemple pentru a clasifica multe exemple noi. Această tehnică se numește învățare unică.
În ultimii ani, tehnologia de învățare one-shot este utilizată pe scară largă în recunoașterea facială și verificările pașapoartelor. Conceptul utilizat este - Modelul preia 2 imagini; una fiind imaginea din pașaport și cealaltă fiind imaginea persoanei care se uită la aparatul de fotografiat. Modelul emite apoi o valoare care este asemănarea dintre cele 2 imagini. Dacă valoarea rezultatului este scăzută, atunci cele două imagini sunt similare, altfel sunt diferite.

Cuprins
Rețeaua Siameze
Arhitectura utilizată pentru învățarea One-shot se numește Rețeaua Siamese. Această arhitectură cuprinde două rețele neuronale paralele, fiecare având o intrare diferită. Ieșirea modelului este o valoare sau un indice de similitudine care indică dacă cele două imagini de intrare sunt identice sau nu. O valoare sub un prag predefinit corespunde asemănării mari dintre cele două imagini și invers.
Când imaginile trec printr-o serie de straturi convoluționale, straturi de max-pooling și straturi complet conectate, ceea ce obținem este un vector care codifică caracteristicile imaginilor. Aici, deoarece introducem două imagini, vor fi generați doi vectori care cuprind caracteristicile imaginilor de intrare. Valoarea despre care vorbeam este distanța dintre cei doi vectori caracteristici care poate fi calculată prin găsirea normei diferenței dintre cei doi vectori.
Funcția de pierdere triplet
După cum sugerează și numele, pentru a antrena modelul avem nevoie de trei imagini - o imagine ancora (A), una pozitivă (P) și o imagine negativă (N). Deoarece modelului pot fi furnizate două intrări, este dată o imagine ancora cu o imagine pozitivă sau negativă. Modelul învață parametrul în așa fel încât distanța dintre imaginea ancoră și imaginea pozitivă este mică, în timp ce distanța dintre imaginea ancoră și imaginea negativă este mare.
Funcția de pierdere constructivă penalizează modelul dacă distanța dintre A și N este mică sau A și P este mare, în timp ce încurajează modelul sau învață caracteristici atunci când distanța dintre A și N este mare și A și P este mică.

Pentru a înțelege mai multe despre ancoră, imaginile pozitive și negative, să luăm în considerare exemplul anterior al unui aeroport. Într-un astfel de caz, imaginea de ancorare va fi imaginea ta atunci când te uiți la cameră, imaginea pozitivă va fi cea de pe fotografia ta de pașaport, iar imaginea negativă va fi o imagine aleatorie a unui pasager prezent în aeroport.
Ori de câte ori antrenăm o rețea Siaseme, îi punem la dispoziție triourile APN (ancoră, pozitive și negative). Crearea acestui set de date este mult mai ușoară și ar necesita mai puține imagini pentru antrenament.
Limitările învățării one-shot
Învățarea one-shot este încă un algoritm matur de învățare automată și are unele limitări. De exemplu, modelul nu va funcționa bine dacă imaginea de intrare are unele modificări - o persoană care poartă o pălărie, ochelari de soare și colab. Mai mult, un model care este antrenat pentru o aplicație nu poate fi generalizat pentru o altă aplicație.
Mergând mai departe, să vedem câteva variante ale învățării One-shot care implică învățarea Zero-shot și Învățare Few-shot.
Învățare zero-shot
Învățarea zero-shot este capacitatea modelului de a identifica date etichetate noi sau nevăzute în timp ce este antrenat pe date văzute și cunoaște caracteristicile semantice ale datelor noi sau nevăzute. De exemplu, un copil care a văzut o pisică o poate identifica după caracteristicile sale distincte. Mai mult, dacă copilul este conștient că lătratul câinelui și posedă caracteristici mai solide decât o pisică, atunci copilul nu ar avea nicio problemă în a recunoaște câinele.
Pentru a încheia, putem spune că recunoașterea ZSL funcționează într-o manieră care ia în considerare setul de antrenament etichetat al claselor văzute, împreună cu cunoștințele despre modul în care fiecare clasă nevăzută este legată semantic de clasele văzute.

Învățare N-shot
După cum sugerează și numele, în învățarea N shot vom avea n date etichetate pentru fiecare clasă disponibile pentru antrenament. Modelul este antrenat pe K clase, fiecare conţinând n date etichetate. După extragerea caracteristicilor și modelelor relevante, modelul trebuie să clasifice o nouă imagine fără etichetă într-una dintre clasele K. Ei folosesc rețele de potrivire care funcționează la abordarea bazată pe cei mai apropiați vecini instruiți complet cap la cap.
Concluzie
În concluzie, domeniul învățării One-shot și omologii săi au un potențial imens de a rezolva unele dintre problemele provocatoare. Deși, fiind un domeniu de cercetare relativ nou, acesta face progrese rapide, iar cercetătorii lucrează încercând să reducă decalajul dintre mașini și oameni.
Cu aceasta, am ajuns la finalul acestei postări, sper că ți-a plăcut să o citești.
Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de formare riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.
Învață cursul ML de la cele mai bune universități din lume. Câștigă programe de master, Executive PGP sau Advanced Certificate pentru a-ți accelera cariera.
