Statistici pentru învățarea automată: tot ce trebuie să știți
Publicat: 2021-03-12Statistica și probabilitatea formează nucleul învățării automate și al științei datelor. Analiza statistică, împreună cu puterea de calcul și optimizarea, este capabilă de Machine Learning să realizeze ceea ce realizează astăzi. De la elementele de bază ale probabilității până la statisticile descriptive și inferențiale, aceste subiecte constituie baza învățării automate.
Până la sfârșitul acestui tutorial, veți ști următoarele:
- Bazele probabilității
- Distribuții de probabilitate
- Distributie normala
- Măsuri de tendință centrală
- Teorema limitei centrale
- Abatere standard și eroare standard
- Inclinație și curtoză
Cuprins
Bazele probabilității
Evenimente independente și dependente
Să considerăm 2 evenimente, evenimentul A și evenimentul B. Când probabilitatea de apariție a evenimentului A nu depinde de apariția evenimentului B, atunci A și B sunt evenimente independente. De exemplu, dacă aveți 2 monede corecte, atunci probabilitatea de a obține cap pe ambele monede va fi de 0,5 pentru ambele. Prin urmare, evenimentele sunt independente.
Acum luați în considerare o cutie care conține 5 bile - 2 negre și 3 roșii. Probabilitatea de a extrage prima bilă neagră va fi de 2/5. Acum probabilitatea de a extrage din nou o bilă neagră din cele 4 bile rămase va fi 1/4. În acest caz, cele două evenimente sunt dependente, deoarece probabilitatea de a extrage o minge neagră pentru a doua oară depinde de ce minge a fost extrasă la prima încercare.
Probabilitate marginală
Este probabilitatea unui eveniment, indiferent de rezultatele altor variabile aleatoare, de exemplu P(A) sau P(B).
Probabilitate comună
Este probabilitatea ca două evenimente diferite să apară în același timp, adică două (sau mai multe) evenimente simultane, de exemplu P(A și B) sau P(A, B).
Probabilitate condițională
Este probabilitatea unuia (sau mai multor) evenimente, având în vedere apariția unui alt eveniment sau, cu alte cuvinte, este probabilitatea ca un eveniment A să se producă atunci când un eveniment secundar B este adevărat. de exemplu P(A dat B) sau P(A | B).
Alăturați-vă cursului de ML online de la cele mai bune universități din lume - Master, Programe Executive Postuniversitare și Program de Certificat Avansat în ML și AI pentru a vă accelera cariera.
Distribuții de probabilitate
Distribuțiile de probabilitate descriu distribuția punctelor de date într-un spațiu eșantion. Ne ajută să vedem probabilitatea de eșantionare a anumitor puncte de date atunci când sunt eșantionate la întâmplare din populație. De exemplu, dacă o populație constă din notele elevilor unei școli, atunci distribuția probabilității va avea note pe axa X și numărul de elevi cu acele note pe axa Y. Aceasta se mai numește și histogramă . Histograma este un tip de distribuție de probabilitate discretă . Principalele tipuri de distribuție discretă sunt distribuția binomială, distribuția Poisson și distribuția uniformă.
Pe de altă parte, se face o distribuție continuă a probabilității pentru datele care au valoare continuă. Cu alte cuvinte, atunci când poate avea un set infinit de valori precum înălțimea, viteza, temperatura etc. Distribuțiile continue de probabilitate au o utilizare extraordinară în știința datelor și analiza statistică pentru verificarea importanței caracteristicilor, distribuțiile datelor, teste statistice etc.
Citiți și matematica din spatele învățării automate
Distributie normala
Cea mai cunoscută distribuție continuă este distribuția normală, care este cunoscută și sub denumirea de distribuție gaussiană sau „curba clopot”.
Luați în considerare o distribuție normală a înălțimii oamenilor. Cele mai multe înălțimi sunt grupate în partea de mijloc, care este mai înaltă și se reduce treptat spre extremele stânga și dreapta, ceea ce denotă o probabilitate mai mică de a obține acea valoare în mod aleatoriu.
Această curbă este centrată la medie și poate fi înaltă și subțire sau poate fi scurtă și întinsă. Unul subțire denotă că există un număr mai mic de valori distincte pe care le putem eșantiona. Și o curbă mai întinsă arată că există o gamă mai mare de valori. Această răspândire este definită de abaterea sa standard .
Cu cât deviația standard este mai mare, datele dvs. vor fi mai răspândite. Deviația standard este doar o derivație matematică a unei alte proprietăți numită Varianta, care definește cât de mult „variază” datele. Și variația este despre ceea ce se referă la date, Varianta este informație. Fără variație, fără informații. Distribuția normală are un rol crucial în statistici – Teorema limitei centrale.
Măsuri de tendință centrală
Măsurile tendinței centrale sunt modalitățile prin care putem rezuma un set de date luând o singură valoare. Există 3 măsuri de tendință, în principal:
1. Media: media este doar media aritmetică sau media valorilor din date/funcție. Suma tuturor valorilor împărțită la numărul de valori ne oferă media. Media este de obicei cea mai comună modalitate de a măsura centrul oricăror date, dar poate induce în eroare în unele cazuri. De exemplu, atunci când există o mulțime de valori aberante, media va începe să se deplaseze către valori aberante și va fi o măsură proastă a centrului datelor dvs.
2. Mediană : Mediana este punctul de date care se află exact în centru atunci când datele sunt sortate în ordine crescătoare sau descrescătoare. Când numărul de puncte de date este impar, atunci mediana este ușor de ales ca punct central. Când numărul de puncte de date este par, atunci mediana este calculată ca medie a celor 2 puncte centrale ale celor mai multe date.
3. Mod: Modul este punctul de date care este prezent cel mai frecvent într-un set de date. Modul rămâne cel mai robust pentru valori aberante, deoarece va rămâne fix în cel mai frecvent punct.
Teorema limitei centrale
Teorema limită centrală în statistică afirmă că, având în vedere o dimensiune a eșantionului suficient de mare, distribuția de eșantionare va aproxima o distribuție normală, indiferent de distribuția acelei variabile. Permiteți-mi să aduc esența afirmației de mai sus în cuvinte simple.
Datele pot fi de orice distribuție. Ar putea fi perfectă sau denaturată normală, ar putea fi exponențială sau (aproape) orice distribuție la care vă puteți gândi. Cu toate acestea, dacă luați în mod repetat mostre din populație și continuați să reprezentați histograma mijloacelor acestora, veți descoperi în cele din urmă că această nouă distribuție a tuturor mijloacelor seamănă cu Distribuția Normală!
În esență, nu contează în ce distribuție sunt datele tale, distribuția mijloacelor lor va fi întotdeauna normală.
Dar câte mostre sunt necesare pentru a menține CLT adevărat? Regula degetului mare spune că ar trebui să fie >30. Deci, dacă luați 30 sau mai multe mostre din orice distribuție, mediile vor fi distribuite în mod normal, indiferent de tipul de distribuție subiacent.
Abatere standard și eroare standard
Abaterea standard și eroarea standard sunt adesea confundate una cu alta. Abaterea standard, după cum probabil știți, descrie sau cuantifică variația datelor de ambele părți ale distribuției – mai mică decât medie și mai mare decât medie. Dacă punctele dvs. de date sunt răspândite într-o gamă largă de valori, abaterea standard va fi mare.
Acum, așa cum am discutat mai sus, prin teorema limită centrală, dacă trasăm media tuturor eșantioanelor dintr-o populație, distribuția acelor medii va fi din nou o distribuție normală. Deci va avea propria sa abatere standard, nu?
Abaterea standard a mediilor tuturor eșantioanelor dintr-o populație se numește eroare standard. Valoarea erorii standard va fi de obicei mai mică decât abaterea standard, deoarece calculați abaterea standard a mediilor, iar valoarea mediilor ar fi mai puțin răspândită decât punctele individuale de date din cauza agregării.
Puteți calcula chiar și abaterea standard a medianelor, modul sau chiar abaterea standard a abaterilor standard!
Inainte sa pleci
Conceptele statistice formează adevăratul nucleu al Data Science și ML. Pentru a putea face deducții valide și a înțelege datele disponibile în mod eficient, trebuie să aveți o înțelegere solidă a conceptelor statistice și de probabilitate discutate în acest tutorial.
upGrad oferă un Program Executive PG în Machine Learning și AI și un Master of Science în Machine Learning și AI, care vă poate ghida spre construirea unei cariere. Aceste cursuri vor explica necesitatea învățării automate și pașii suplimentari pentru a culege cunoștințe în acest domeniu, care acoperă concepte variate, de la coborârea în gradient până la învățarea automată.
Cunoștințele de statistică sunt obligatorii pentru a face bine în învățarea automată?
Statistica este un domeniu foarte vast. În învățarea automată, statisticile ajută practic la înțelegerea profundă a datelor. Unele concepte statistice precum probabilitatea, interpretarea datelor etc. sunt necesare în mai mulți algoritmi de învățare automată. Cu toate acestea, nu trebuie să fii un expert pe toate subiectele de statistică pentru a te descurca bine în învățarea automată. Cunoscând doar conceptele fundamentale, veți putea funcționa eficient.
Cunoașterea unor coduri în prealabil va fi utilă în învățarea automată?
Codarea este inima învățării automate, iar programatorii care înțeleg cum să codeze bine vor avea o înțelegere profundă a modului în care funcționează algoritmii și, astfel, vor putea monitoriza și optimiza acești algoritmi mai eficient. Nu trebuie să fii un expert în niciun limbaj de programare, deși orice cunoștințe anterioare va fi benefică. Dacă sunteți începător, Python este o alegere bună, deoarece este ușor de învățat și are o sintaxă ușor de utilizat.
Cum folosim calculul în viața de zi cu zi?
Prognozele meteorologice se bazează pe o serie de variabile, cum ar fi viteza vântului, conținutul de umiditate și temperatura, care pot fi calculate numai folosind calcul. Utilizarea calculului poate fi văzută și în ingineria aviației într-o varietate de moduri. Calculul este, de asemenea, utilizat de industriile de vehicule pentru a îmbunătăți și asigura o bună siguranță a vehiculelor. De asemenea, este folosit de companiile de carduri de credit în scopuri de plată.