Ce este ipoteza în învățarea automată? Cum se formează o ipoteză?

Publicat: 2021-03-12

Testarea ipotezelor este un subiect larg care se aplică în multe domenii. Când studiem statisticile, Testarea ipotezei de acolo implică date de la mai multe populații, iar testul este de a vedea cât de semnificativ este efectul asupra populației.

Aceasta implică calcularea valorii p și compararea acesteia cu valoarea critică sau alfa. Când vine vorba de Machine Learning, Testarea ipotezei se ocupă de găsirea funcției care apropie cel mai bine caracteristicile independente de țintă. Cu alte cuvinte, mapați intrările la ieșiri.

Până la sfârșitul acestui tutorial, veți ști următoarele:

  • Ce este ipoteza în statistică vs învățare automată
  • Ce este spațiul de ipoteză?
  • Procesul de formare a unei ipoteze

Cuprins

Ipoteza în statistică

O ipoteză este o presupunere a unui rezultat care este falsificabil, ceea ce înseamnă că poate fi dovedit greșit prin unele dovezi. O ipoteză poate fi fie respinsă, fie nu poate fi respinsă. Nu acceptăm niciodată nicio ipoteză în statistică pentru că totul este despre probabilități și nu suntem niciodată 100% siguri. Înainte de începerea experimentului, definim două ipoteze:

1. Ipoteza nulă: spune că nu există un efect semnificativ

2. Ipoteza alternativă: spune că există un efect semnificativ

În statistică, comparăm valoarea P (care este calculată folosind diferite tipuri de teste statistice) cu valoarea critică sau alfa. Cu cât valoarea P este mai mare, cu atât probabilitatea este mai mare, ceea ce înseamnă, la rândul său, că efectul nu este semnificativ și concluzionăm că nu reușim să respingem ipoteza nulă .

Cu alte cuvinte, este foarte probabil ca efectul să se fi produs întâmplător și nu există o semnificație statistică a acestuia. Pe de altă parte, dacă obținem o valoare P foarte mică, înseamnă că probabilitatea este mică. Asta înseamnă că probabilitatea ca evenimentul să se producă întâmplător este foarte mică.

Alăturați-vă Cursului de ML și AI online de la cele mai bune universități din lume – Master, Programe Executive Postuniversitare și Program de Certificat Avansat în ML și AI pentru a vă accelera cariera.

Nivel de semnificație

Nivelul de semnificație este setat înainte de începerea experimentului. Aceasta definește cât de mult este toleranța la eroare și la ce nivel efectul poate fi considerat semnificativ. O valoare comună pentru nivelul de semnificație este 95%, ceea ce înseamnă, de asemenea, că există o șansă de 5% să fim păcăliți de test și să facem o eroare. Cu alte cuvinte, valoarea critică este 0,05 care acționează ca un prag. În mod similar, dacă nivelul de semnificație ar fi setat la 99%, ar însemna o valoare critică de 0,01%.

Valoarea P

Se efectuează un test statistic asupra populației și eșantionului pentru a afla valoarea P care apoi este comparată cu valoarea critică. Dacă valoarea P se dovedește a fi mai mică decât valoarea critică, atunci putem concluziona că efectul este semnificativ și, prin urmare, respingem ipoteza nulă (care a spus că nu există un efect semnificativ). Dacă valoarea P se dovedește a fi mai mare decât valoarea critică, putem concluziona că nu există un efect semnificativ și, prin urmare, nu reușim să respingem ipoteza nulă.

Acum, deoarece nu putem fi niciodată 100% siguri, există întotdeauna șansa ca testele noastre să fie corecte, dar rezultatele să fie înșelătoare. Aceasta înseamnă că fie respingem nulul atunci când de fapt nu este greșit. De asemenea, poate însemna că nu respingem nulul atunci când este de fapt fals. Acestea sunt erori de tip 1 și de tip 2 ale testării ipotezelor.

Exemplu

Luați în considerare că lucrați pentru un producător de vaccinuri și echipa dvs. dezvoltă vaccinul pentru Covid-19. Pentru a dovedi eficacitatea acestui vaccin, trebuie să se dovedească statistic că este eficient asupra oamenilor. Prin urmare, luăm două grupuri de oameni de dimensiuni și proprietăți egale. Vaccinul îl dăm grupului A și un placebo grupului B. Efectuăm analize pentru a vedea câți oameni din grupul A s-au infectat și câți din grupul B s-au infectat.

Testăm acest lucru de mai multe ori pentru a vedea dacă grupul A a dezvoltat vreo imunitate semnificativă împotriva Covid-19 sau nu. Calculăm valoarea P pentru toate aceste teste și concluzionăm că valorile P sunt întotdeauna mai mici decât valoarea critică. Prin urmare, putem respinge în siguranță ipoteza nulă și putem concluziona că există într-adevăr un efect semnificativ.

Citiți: Modelele de învățare automată explicate

Ipoteza în învățarea automată

Ipoteza în învățarea automată este utilizată atunci când într-un învățare automată supravegheată, trebuie să găsim funcția care mapează cel mai bine intrarea cu ieșirea. Aceasta poate fi numită și aproximare a funcției, deoarece aproximăm o funcție țintă care se caracterizează cel mai bine pe țintă.

1. Ipoteza(h): O ipoteză poate fi un singur model care mapează caracteristicile la țintă, cu toate acestea, poate fi rezultatul/valorile. O ipoteză este semnificată prin „ h ”.

2. Spațiul de ipoteză (H): Un spațiu de ipoteză este o gamă completă de modele și parametrii lor posibili care pot fi utilizați pentru modelarea datelor. Este semnificată prin „ H ”. Cu alte cuvinte, Ipoteza este un subset al Spațiului Ipotezei.

Procesul de formare a unei ipoteze

În esență, avem datele de antrenament (funcții independente și țintă) și o funcție țintă care mapează caracteristicile la țintă. Acestea sunt apoi executate pe diferite tipuri de algoritmi folosind diferite tipuri de configurații ale spațiului lor de hiperparametri pentru a verifica care configurație produce cele mai bune rezultate. Datele de antrenament sunt folosite pentru a formula și găsi cea mai bună ipoteză din spațiul ipotezelor. Datele de testare sunt folosite pentru a valida sau verifica rezultatele produse de ipoteză.

Luați în considerare un exemplu în care avem un set de date de 10000 de instanțe cu 10 caracteristici și o țintă. Ținta este binară, ceea ce înseamnă că este o problemă de clasificare binară. Acum, să zicem, modelăm aceste date utilizând regresia logistică și obținem o precizie de 78%. Putem trasa linia de regresie care separă ambele clase. Aceasta este o ipoteză (h). Apoi testăm această ipoteză pe datele testului și obținem un scor de 74%.

Acum, să presupunem din nou că potrivim un model RandomForests pe aceleași date și obținem un scor de precizie de 85%. Aceasta este deja o îmbunătățire bună față de regresia logistică. Acum decidem să reglam hiperparametrii RandomForests pentru a obține un scor mai bun pe aceleași date. Facem o căutare în grilă și rulăm mai multe modele RandomForest pe date și verificăm performanța acestora. În acest pas, căutăm în esență spațiul de ipoteză (H) pentru a găsi o funcție mai bună. După finalizarea căutării în grilă, obținem cel mai bun scor de 89% și încheiem căutarea.

Acum încercăm și mai multe modele precum XGBoost, Support Vector Machine și teorema Naive Bayes pentru a-și testa performanțele pe aceleași date. Apoi alegem cel mai performant model și îl testăm pe datele de testare pentru a-i valida performanța și a obține un scor de 87%.

Checkout: Proiecte și subiecte de învățare automată

Inainte sa pleci

Ipoteza este un aspect crucial al învățării automate și al științei datelor. Este prezent în toate domeniile analizei și este factorul hotărâtor dacă trebuie introdusă sau nu o schimbare. Fie că este vorba de produse farmaceutice, software, vânzări etc. O Ipoteza acoperă setul complet de date de antrenament pentru a verifica performanța modelelor din spațiul Ipoteze.

O ipoteză trebuie să fie falsificabilă, ceea ce înseamnă că trebuie să fie posibil să fie testată și dovedită greșită dacă rezultatele sunt împotriva ei. Procesul de căutare a celei mai bune configurații a modelului necesită mult timp atunci când trebuie verificate o mulțime de configurații diferite. Există modalități de a accelera acest proces, de asemenea, folosind tehnici precum căutarea aleatorie a hiperparametrilor.

Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Programul Executive PG de la IIIT-B și upGrad în Învățare automată și IA, care este conceput pentru profesioniști care lucrează și oferă peste 450 de ore de formare riguroasă, peste 30 de studii de caz și sarcini, IIIT -B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

De ce ar trebui să facem proiecte open-source?

Există multe motive pentru a face proiecte open-source. Înveți lucruri noi, îi ajuți pe alții, faci rețea cu alții, îți creezi o reputație și multe altele. Open Source este distractiv și, în cele din urmă, vei primi ceva înapoi. Unul dintre cele mai importante motive este că construiește un portofoliu de lucrări grozave pe care le poți prezenta companiilor și a fi angajat. Proiectele open-source sunt o modalitate minunată de a învăța lucruri noi. Ați putea să vă îmbunătățiți cunoștințele despre dezvoltarea de software sau ați putea învăța o nouă abilitate. Nu există o modalitate mai bună de a învăța decât de a preda.

Pot contribui la open source ca începător?

Da. Proiectele open-source nu discriminează. Comunitățile open-source sunt formate din oameni cărora le place să scrie cod. Există întotdeauna un loc pentru un începător. Veți învăța multe și veți avea, de asemenea, șansa de a participa la o varietate de proiecte open-source. Vei învăța ce funcționează și ce nu și vei avea, de asemenea, șansa de a-ți face codul folosit de o mare comunitate de dezvoltatori. Există o listă de proiecte open-source care caută mereu colaboratori noi.

Cum funcționează proiectele GitHub?

GitHub oferă dezvoltatorilor o modalitate de a gestiona proiecte și de a colabora între ei. De asemenea, servește ca un fel de CV pentru dezvoltatori, cu participanții unui proiect, documentația și versiunile listate. Contribuțiile la un proiect arată potențialilor angajatori că aveți abilitățile și motivația de a lucra în echipă. Proiectele sunt adesea mai mult decât cod, așa că GitHub are o modalitate prin care vă puteți structura proiectul la fel cum ați structura un site web. Îți poți gestiona site-ul cu o sucursală. O ramură este ca un experiment sau o copie a site-ului dvs. web. Când doriți să experimentați cu o funcție nouă sau să remediați ceva, faceți o ramură și experimentați acolo. Dacă experimentul are succes, puteți îmbina ramura înapoi în site-ul original.