Regresia liniară explicată cu un exemplu

Publicat: 2021-10-13

Regresia liniară este unul dintre cei mai comuni algoritmi pentru stabilirea relațiilor dintre variabilele unui set de date. Un model matematic este un instrument necesar pentru oamenii de știință de date în efectuarea analizei predictive. Acest blog vă va prezenta conceptul fundamental și va discuta, de asemenea, un exemplu de regresie liniară.

Cuprins

Ce sunt modelele de regresie?

Un model de regresie descrie relația dintre variabilele setului de date prin potrivirea unei linii la datele observate. Este o analiză matematică care sortează care variabile au impact și contează cel mai mult. De asemenea, determină cât de sigur suntem cu privire la factorii implicați. Cele două tipuri de variabile sunt:

  • Dependent: factor pe care încercați să-l anticipați sau să îl înțelegeți.
  • Independent: Factori despre care bănuiți că au un impact asupra variabilei dependente.

Modelele de regresie sunt utilizate atunci când variabila dependentă este cantitativă. Poate fi binar în cazul regresiei logistice. Dar în acest blog, ne vom concentra în principal pe modelul de regresie liniară în care ambele variabile sunt cantitative.

Să presupunem că aveți date despre vânzările lunare și precipitațiile medii lunare din ultimii trei ani. Să presupunem că ați reprezentat aceste informații pe o diagramă. Axa y reprezintă numărul de vânzări (variabilă dependentă), iar axa x reprezintă precipitațiile totale. Fiecare punct de pe diagramă ar arăta cât de mult a plouat într-o anumită lună și numerele de vânzări corespunzătoare.

Dacă aruncați o altă privire asupra datelor, este posibil să observați un model. Să presupunem că vânzările sunt mai mari în zilele în care a plouat mai mult. Dar ar fi dificil să estimezi cât ai vinde de obicei atunci când ploua o anumită cantitate, să zicem 3 sau 4 inci. Ai putea obține un anumit grad de certitudine dacă ai trasa o linie prin mijlocul tuturor punctelor de date de pe diagramă.

În zilele noastre, Excel și software-ul de statistică precum SPSS, R sau STATA vă pot ajuta să trasați o linie care se potrivește cel mai bine cu datele disponibile. În plus, puteți afișa și o formulă care explică panta dreptei.

Luați în considerare această formulă pentru exemplul de mai sus: Y = 200 + 3X. Îți spune că ai vândut 200 de unități când nu a plouat deloc (adică când X=0). Presupunând că variabilele rămân aceleași pe măsură ce avansăm, fiecare centimetru suplimentar de ploaie ar avea ca rezultat o vânzare medie de încă trei unități. Ai vinde 203 unități dacă plouă 1 inch, 206 unități dacă plouă 2 inci, 209 inci dacă plouă 3 inci și așa mai departe.

De obicei, formula liniei de regresie include și un termen de eroare (Y = 200 + 3 X + termen de eroare). Se ia în considerare realitatea că predictorii independenți pot să nu fie întotdeauna predictori perfecți ai variabilelor dependente. Și linia vă oferă doar o estimare bazată pe datele disponibile. Cu cât termenul de eroare este mai mare, cu atât linia de regresie va fi mai puțin sigură.

Bazele regresiei liniare

Un model de regresie liniară simplă folosește o linie dreaptă pentru a estima relația dintre două variabile cantitative. Dacă aveți mai multe variabile independente, veți folosi în schimb regresia liniară multiplă.

Analiza de regresie liniară simplă se referă la două lucruri. În primul rând, vă spune puterea relației dintre factorii dependenți și independenți ai datelor istorice. În al doilea rând, vă oferă valoarea variabilei dependente la o anumită valoare a variabilei independente.

Luați în considerare acest exemplu de regresie liniară. Un cercetător social interesat să știe cum veniturile indivizilor le afectează nivelul de fericire realizează o simplă analiză de regresie pentru a vedea dacă apare o relație liniară. Cercetătorul ia valori cantitative ale variabilei dependente (fericire) și ale variabilei independente (venit) prin sondajul persoanelor dintr-o anumită locație geografică.

De exemplu, datele conțin cifre privind veniturile și nivelurile de fericire (clasate pe o scară de la 1 la 10) de la 500 de persoane din statul indian Maharashtra. Cercetătorul ar reprezenta apoi punctele de date și va potrivi o linie de regresie pentru a ști cât de mult le influențează câștigurile respondenților bunăstarea.

Analiza regresiei liniare se bazează pe câteva ipoteze despre date. Sunt:

  • Liniaritatea relației dintre variabila dependentă și cea independentă, adică linia de cea mai bună potrivire este dreaptă, nu curbă.)
  • Omogenitatea varianței, adică dimensiunea erorii în predicție, nu se modifică semnificativ între diferitele valori ale variabilei independente.
  • Independența observațiilor în setul de date, referindu-se la nicio relație ascunsă.
  • Normalitatea distribuției datelor pentru variabila dependentă. Puteți verifica același lucru folosind funcția hist() din R.

Matematica din spatele regresiei liniare

y = c + ax este o ecuație standard în care y este rezultatul (pe care vrem să o estimăm), x este variabila de intrare (pe care o cunoaștem), a este panta dreptei și c este constanta.

Aici, ieșirea variază liniar în funcție de intrare. Panta determină cât de mult influențează x valoarea lui y. Constanta este valoarea lui y atunci când x este zero.

Să înțelegem acest lucru printr-un alt exemplu de regresie liniară. Imaginați-vă că sunteți angajat într-o companie de automobile și doriți să studiați piața autovehiculelor din India. Să spunem că PIB-ul național influențează vânzările de autovehicule. Pentru a planifica mai bine afacerea, poate doriți să aflați ecuația liniară a numărului de vehicule vândute în țară în ceea ce privește PIB-ul

Pentru aceasta, veți avea nevoie de date mostre pentru vânzările anuale de vehicule de pasageri și cifrele PIB pentru fiecare an. S-ar putea să descoperi că PIB-ul anului curent afectează vânzările pentru anul următor: indiferent de anul în care PIB-ul a fost mai mic, vânzările de vehicule au fost mai mici în anul următor.

Pentru a pregăti aceste date pentru analiza Machine Learning, ar trebui să lucrați mai mult.

  • Vă rugăm să începeți cu ecuația y = c + ax, unde y este numărul de vehicule vândute într-un an și x este PIB-ul anului anterior.
  • Pentru a afla c și an în problema de mai sus, puteți crea un model folosind Python.

Consultați acest tutorial pentru a înțelege metoda pas cu pas

Dacă ar fi să efectuați o regresie liniară simplă în R, interpretarea și raportarea rezultatelor devin mult mai ușoare.

Pentru același exemplu de regresie liniară, să schimbăm ecuația în y=B0 + B1x + e. Din nou, y este variabila dependentă, iar x este variabila independentă sau cunoscută. B0 este constanta sau intercepta, B1 este panta coeficientului de regresie și e este eroarea estimării.

Software-ul statistic precum R poate găsi linia de cea mai bună potrivire prin date și poate căuta B1 care minimizează eroarea totală a modelului.

Urmați acești pași pentru a începe:

  • Încărcați setul de date privind vânzările de vehicule de pasageri în mediul R.
  • Rulați comanda pentru a genera un model liniar care descrie relația dintre vânzările de vehicule de pasageri și PIB.
    • sales.gdp.lm <- lm(gdp ~ sales, data = sales.data)
  • Utilizați funcția summary() pentru a vizualiza cei mai importanți parametri ai modelului liniar sub formă tabelată.
    • rezumat(sales.gdp.lm)

Notă: rezultatul ar conține rezultate precum apeluri, reziduuri și coeficienți. Tabelul „Apel” indică formula utilizată. „Reziduurile” detaliază valorile mediane, quartile, minime și maxime pentru a indica cât de bine se potrivește modelul cu datele reale. Primul rând al tabelului „Coeficienți” estimează intersecția cu y, iar al doilea rând oferă coeficientul de regresie. Coloanele acestui tabel au etichete precum Estimare, Std. Eroare, valoarea t și valoarea p.

Învață cursul de învățare automată de la cele mai bune universități din lume. Câștigă programe de master, Executive PGP sau Advanced Certificate pentru a-ți accelera cariera.

  • Conectați valoarea (Interceptare) în ecuația de regresie pentru a prezice valorile vânzărilor în intervalul de cifre ale PIB-ului.
  • Investigați coloana (Estimare) pentru a afla efectul. Coeficientul de regresie vă va spune cât de mult se modifică vânzările odată cu modificarea PIB-ului.
  • Aflați variația estimării dvs. a relației dintre vânzări și PIB din eticheta (Eroare standard).
  • Priviți statistica testului sub (valoarea t) pentru a ști dacă rezultatele au apărut întâmplător. Cu cât valoarea t este mai mare, cu atât ar fi mai puțin probabil.
  • Treceți prin coloana Pr(>|t|) sau prin valorile p pentru a vedea efectul estimat al PIB-ului asupra vânzărilor dacă ipoteza nulă ar fi adevărată.
  • Prezentați rezultatele cu efectul estimat, eroarea standard și valorile p, comunicând clar ce înseamnă coeficientul de regresie.
  • Includeți un grafic cu raportul. O regresie liniară simplă poate fi prezentată ca o diagramă grafică cu linia de regresie și funcția.
  • Calculați eroarea măsurând distanța valorilor y observate și prezise, ​​pătratând distanțele la fiecare valoare a lui x și calculând media acestora.

Concluzie

Cu exemplul de regresie liniară de mai sus, v-am oferit o privire de ansamblu asupra generării unui model de regresie liniară simplu, găsirea coeficientului de regresie și calcularea erorii estimării. Am atins, de asemenea, relevanța Python și R pentru analiza și statistica datelor predictive. Cunoașterea practică a unor astfel de instrumente este crucială pentru a urma o carieră în știința datelor și învățarea automată astăzi.

Dacă doriți să vă perfecționați abilitățile de programare, consultați Programul de certificat avansat în învățare automată de la IIT Madras și upGrad. Cursul online include, de asemenea, studii de caz, proiecte și sesiuni de mentorat de experți pentru a aduce orientarea către industrie în procesul de formare.

Îmbunătățiți-vă cariera în învățarea automată și inteligența artificială

Aplicați pentru Aplicați pentru Master of Science în învățare automată și inteligență artificială de la LJMU