Cum se efectuează o analiză de regresie multiplă?

Publicat: 2021-11-23

În analiza statistică, modelele de regresie sunt utilizate mai ales ori de câte ori este necesar pentru a dezvolta relații între variabilele luate în considerare. Relația se stabilește prin potrivirea unei linii între toate variabilele. Pentru a înțelege comportamentul variabilei dependente se folosesc modele de regresie. Ele informează utilizatorul cum se schimbă variabilele dependente odată cu schimbarea variabilelor independente.

Regresiile liniare multiple sunt o astfel de tehnică care ne ajută să estimăm relația dintre acele variabile, adică variabilele dependente și cele independente. Acest articol se va concentra pe tehnica regresiilor liniare multiple și modul în care se realizează.

Cuprins

Regresii liniare multiple
Ipoteze considerate în regresiile liniare multiple
- 1. Omogenitatea varianței
- 2. Independenta observatiilor
- 3. Nu există o corelație între variabilele independente
- 4. Normalitate:
- 5. Linearitate
Reprezentarea matematică a regresiei liniare multiple
Cele mai mici pătrate obișnuite
- 1. SciKit Learn
- 2. StatsModels
Exemple de regresii liniare multiple
Fluxul de lucru al MLR
- 1. Alegerea variabilelor
- 2. Rafinamentul modelului
- 3. Testarea ipotezelor modelului
- 4. Abordarea problemelor asociate modelului
- 5. Validarea modelului
Concluzie

Regresii liniare multiple

Regresiile liniare multiple sunt o formă de tehnică statistică utilizată pentru a prezice rezultatele oricărei variabile de răspuns. Unul dintre scopurile tehnicii este de a stabili o relație liniară între variabilele independente și cele dependente. Analiza de regresie liniară multiplă este o formă de analiză multivariată care implică mai mult de o formă de observație.

În mare parte, tehnica poate fi efectuată dacă doriți să aflați despre următoarele lucruri:

Pentru a înțelege cât de puternică este relația dintre variabile. De asemenea, dacă doriți să înțelegeți relația dintre variabilele independente și cele dependente, atunci în acele cazuri, putem folosi tehnica regresiilor liniare multiple.
Tehnica poate fi utilizată pentru a prezice valoarea variabilelor dependente corespunzătoare variabilelor independente.

Ipoteze considerate în regresiile liniare multiple

Anumite ipoteze sunt luate în considerare în tehnicile regresiilor liniare multiple. Iată câteva ipoteze enumerate pentru MLR:

1. Omogenitatea varianței

Este cunoscută și sub numele de homoscedasticitate. Aceasta înseamnă că, în timp ce se prezice un rezultat, nu există modificări semnificative ale erorii asociate cu predicția rezultatului prin valorile variabilelor independente. Metoda presupune că valoarea erorii este aceeași pe tot modelul MLR. Analistul trebuie să reprezinte grafic reziduurile care sunt standardizate în raport cu valorile prezise. Acest lucru ajută la determinarea dacă există o distribuție corectă a punctelor între variabilele independente. Pentru trasarea datelor se poate folosi un grafic de dispersie.

2. Independenta observatiilor

Observațiile luate în considerare în Regresia Lineară Multiplă sunt colectate prin tehnici statistice valide. Aceasta înseamnă că nu există relații ascunse sau existente între variabilele colectate. Uneori, în această tehnică, există scenarii în care unele variabile sunt corelate cu alte variabile. Prin urmare, înainte de a dezvolta modelul de regresie, este întotdeauna important să se verifice aceste variabile corelate. Eliminarea uneia dintre variabile din dezvoltarea modelului este întotdeauna mai bună pentru variabilele care prezintă o corelație ridicată.

3. Nu există o corelație între variabilele independente

În alt mod, se poate menționa că nu ar trebui să existe nicio multicoliniaritate în date. Dacă există o prezență a oricărei multicoliniarități, analistului va fi dificil să identifice variabila care contribuie la varianța variabilei dependente. Prin urmare, una dintre metodele care sunt considerate cele mai bune pentru testarea ipotezei este metoda de variație a factorului de inflație.

4. Normalitate:

Aceasta înseamnă că setul de date urmează distribuția normală.

5. Linearitate

În timpul căutării relației dintre variabile, se încearcă să se potrivească o linie dreaptă între variabile. Se presupune pe scară largă că există o relație liniară între variabilele independente și variabilele dependente. O modalitate de verificare a relației liniare este prin crearea de diagrame de dispersie și apoi vizualizarea diagramelor de dispersie. Acesta permite utilizatorului să observe liniaritatea existentă în observații. Dacă în cazul în care nu există o relație liniară, atunci analistul trebuie să-și repete analiza. Software-ul statistic, cum ar fi SPSS, poate fi utilizat pentru efectuarea MLR.

Reprezentarea matematică a regresiei liniare multiple

Imaginea matematică a unui model de regresie liniară multiplă este prezentată în ecuația de mai jos:

În ecuația de mai sus,

Y reprezintă variabila de ieșire,
X reprezintă variabilele de intrare,
Β reprezintă coeficientul asociat fiecărui termen.
B0 este valoarea intersecției cu y, ceea ce înseamnă valoarea lui Y atunci când toți ceilalți predictori sunt absenți.

Uneori, ecuația MLR constă dintr-un termen de eroare reprezentat cu termenul „e” la sfârșitul termenilor din ecuație.

În timp ce găsiți cea mai bună potrivire a liniei, ecuația MLR este utilizată pentru a calcula următoarele lucruri:

Calculul coeficienților de regresie care au ca rezultat cea mai mică eroare în ecuația MLR.
Pentru modelul general, ecuația calculează valoarea t-statistică.
Valoarea p a modelului.

Cele mai mici pătrate obișnuite

Metoda regresiei liniare multiplă este cunoscută și sub denumirea de Pătrate minime obișnuite (OLS). Acest lucru se datorează faptului că metoda MLR încearcă să găsească cea mai mică sumă de pătrate. Prin urmare, cunoscută și ca metoda OLS. Limbajul de programare python poate fi folosit pentru implementarea acestor metode. Cele două metode care pot aplica metoda OLS în python sunt:

1. SciKit Learn

Acesta este un pachet disponibil într-un limbaj de programare Python. Modulele de regresie liniară urmează să fie importate din pachetul Scikit Learn. Modelul este apoi montat cu datele. Este o metodă simplă și poate fi utilizată pe scară largă.

2. StatsModels

Una dintre celelalte metode folosite în limbajul de programare python este pachetul de Statsmodels. Acest pachet poate ajuta la implementarea tehnicilor OLS.

Exemple de regresii liniare multiple

Câteva dintre exemplele pentru MLR sunt enumerate mai jos:

Modelul de regresie liniară multiplă poate fi utilizat pentru estimarea randamentelor culturilor. Acest lucru se datorează faptului că, în MLR, există o asociere între variabilele dependente și cele independente. În astfel de studii, pot fi luați în considerare factori suplimentari, cum ar fi factorii climatici, precipitațiile, nivelul de îngrășământ și temperatura.
Dacă trebuie stabilită o legătură între numărul de ore ale unui studiu efectuat și GPA de clasă, atunci se poate folosi metoda MLR. În astfel de cazuri, GPA va fi variabila dependentă, în timp ce cealaltă variabilă, cum ar fi orele de studiu, va fi variabila explicativă.
Tehnica MLR poate fi utilizată pentru determinarea salariului directorului într-o companie pe baza experienței și a vârstei directorilor. În astfel de cazuri, salariul va deveni variabila dependentă, în timp ce vârsta și experiența vor fi variabila independentă.

Fluxul de lucru al MLR

Datele trebuie pregătite și analizate înainte de a intra în modelul de regresie. Datele sunt analizate în mare parte pentru prezența oricăror erori, valori aberante, valori lipsă etc. Iată câțiva pași enumerați pentru a vă arăta cum să implementați sau să aplicați tehnicile de regresie liniară multiplă.

1. Alegerea variabilelor

MLR necesită un set de date care să conțină valorile predictorilor care au cea mai mare relație cu variabila răspuns. Aceasta înseamnă că informațiile maxime ar trebui extrase dintr-un număr minim de variabile. Selectarea variabilelor poate fi efectuată din următoarele procese.

Pentru căutarea variabilelor se poate opta o procedură automată. Instrumentele pot fi folosite împreună cu pachetele de programare R și Python pentru a decide cele mai bune variabile pentru studiul MLR.
Regresia tot posibilă poate fi optată pentru verificarea prezenței oricăror subpărți ale oricăror variabile independente.
Valoarea lui R2 poate fi luată în considerare pentru analiza celor mai bune variabile. Acele variabile cu o valoare mai mare a R2 sunt considerate cele mai potrivite în model. Valorile lui R2 pot fi din cele două numere, 0 și 1. Valoarea 0 înseamnă că niciuna dintre variabilele independente nu poate prezice rezultatul variabilelor dependente. Valoarea lui 1 semnifică predicția prin variabile independente și fără erori.
Există, de asemenea, un alt termen care este suma de pătrate prezisă (PRESSp). Dacă modelul MLR are un PRESSp mai mic, atunci modelul este considerat a avea o putere predictivă mai bună.

2. Rafinamentul modelului

Modelul MLR poate fi îmbunătățit prin examinarea următoarelor criterii:

Valoarea testului F global. Acesta este folosit pentru a testa semnificația predicției rezultatului variabilei dependente de către variabila independentă.
R2 ajustat pentru verificarea variației eșantionului complet după ajustarea parametrilor și mărimea eșantionului. Valoarea mai mare a termenului indică faptul că variabilele se potrivesc mai bine cu datele.
Deviația pătrată medie sau RMSE este utilizată pentru a estima abaterea standard pentru erori aleatoare.
Se consideră că modelul MLR oferă predicții precise dacă valoarea coeficientului de variație este de 10% sau mai mică decât aceasta.

3. Testarea ipotezelor modelului

Ipotezele luate în considerare sunt testate în modelul de regresie liniară. Aceste ipoteze ar trebui îndeplinite.

4. Abordarea problemelor asociate modelului

În cazurile în care unele dintre ipotezele luate în considerare în model sunt încălcate, atunci ar trebui luate măsuri pentru a minimiza astfel de probleme.

5. Validarea modelului

Acesta este ultimul pas în generarea modelului MLR și este considerat unul important. După generarea modelului, modelul trebuie validat. Odată validat, poate fi utilizat pentru orice analiză de regresie liniară multiplă .

Concluzie

Regresia liniară multiplă este una dintre tehnicile cele mai utilizate pe scară largă în orice studiu de cercetare pentru a stabili corelația dintre variabile. De asemenea, este considerat a fi un algoritm important în lumea învățării automate. Cu toate acestea, dacă sunteți nou în analiza regresiei, este întotdeauna mai bine să vă faceți o idee despre modelele de regresie și despre regresiile liniare simple.

Obțineți cursuri de învățare automată de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.

Îmbunătățiți-vă cariera în învățarea automată și inteligența artificială

Aplicați acum pentru certificarea executivă în Ai-ml de la IIITB