Noțiuni introductive cu regresia binomială negativă: Ghid pas cu pas

Publicat: 2022-04-17

Tehnica regresiei binomiale negative este utilizată pentru realizarea modelării variabilelor de numărare. Metoda este aproape similară cu metoda regresiei multiple. Totuși, există diferența că, în cazul regresiei binomiale negative, variabila dependentă, adică Y, urmează distribuția binomială negativă. Prin urmare, valorile variabilei pot fi numere întregi nenegative, cum ar fi 0, 1, 2.

Metoda este, de asemenea, o extensie a regresiei Poisson care face o relaxare în presupunerea că media este egală cu varianța. Unul dintre modelele tradiționale de regresie binomială, definit ca „NB2”, se bazează pe distribuția mixtă a Poisson-gamma.

Metoda regresiei Poisson este generalizată prin adăugarea unei variabile de zgomot gamma. Această variabilă are o valoare de medie unu și, de asemenea, un parametru de scară care este „v”.

Iată câteva exemple de regresie binomială negativă:

Administratorii școlii au realizat un studiu pentru a studia comportamentul de prezență al elevilor de liceu din două școli. Factorii care ar putea influența comportamentul de prezență ar putea include zilele în care juniorii au lipsit de la școală. De asemenea, programul la care au fost înscriși.
Un cercetător dintr-un studiu legat de sănătate a efectuat un studiu despre câți vârstnici au vizitat un spital în ultimele 12 luni. Studiul sa bazat pe caracteristicile individului și pe planurile de sănătate pe care vârstnicii le-au cumpărat.

Cuprins

Exemplu de regresie binomială negativă

Să presupunem că există o foaie de prezență de aproximativ 314 elevi de la liceu. Datele sunt preluate de la două școli urbane și stocate într-un fișier numit nb_data.dta. Variabila de răspuns interesantă din acest exemplu este zilele absente, care sunt „daysabs”. Este prezentă o variabilă, „matematică”, care definește scorul la matematică pentru fiecare elev. Există o altă variabilă care este „prog”. Această variabilă indică programul în care sunt înscriși studenții.

Sursă

Fiecare dintre variabile are aproximativ 314 observații. Prin urmare, distribuțiile între variabile sunt de asemenea rezonabile. De asemenea, luând în considerare variabila rezultat, media necondiționată este mai mică decât varianța.

Acum, concentrați-vă pe descrierea variabilei luate în considerare în setul de date. Un tabel indică numărul mediu de zile în care un elev a lipsit de la școală în fiecare tip de program. Acest lucru sugerează că programul de tip variabil poate prezice zilele în care elevul a lipsit de la școală. De asemenea, îl puteți folosi pentru a prezice variabila rezultat. Acest lucru se datorează faptului că valoarea medie pentru variabila rezultat variază în funcție de variabila prog. De asemenea, valorile variațiilor sunt mai mari decât sunt în fiecare nivel al variabilei prog. Aceste valori se numesc varianțe și medii. Diferențele existente sugerează că există prezența supradispersiei și, prin urmare, va fi adecvat să se utilizeze un model binom negativ.

Sursă

Un cercetător poate lua în considerare mai multe metode de analiză pentru acest tip de studiu. Aceste metode sunt descrise mai jos. Câteva dintre metodele de analiză pe care utilizatorul le poate folosi pentru analiza modelului de regresie sunt:

1. Regresie binomială negativă

Metoda regresiei binomiale negative trebuie utilizată atunci când există date supradispersate. Aceasta înseamnă că valoarea varianței condiționate este mai mare sau depășește valoarea mediei condiționate. Metoda este considerată a fi generalizată din metoda regresiei Poisson. Acest lucru se datorează faptului că ambele metode au aceeași structură a mediei. Dar, există un parametru suplimentar în regresia binomială negativă utilizat pentru a modela supradispersia. Intervalele de încredere sunt considerate mai înguste decât regresia pasiunii atunci când distribuția condiționată este supra-dispersată de variabila rezultat.

2. Regresia Poisson

Metoda regresiei Poisson este utilizată în modelarea datelor de numărare. Multe extensii pot fi utilizate pentru modelarea variabilelor de numărare în regresia Poisson.

3. Regresia MCO

Rezultatele variabilelor de numărare sunt uneori transformate în log și apoi analizate prin metoda regresiei MCO. Cu toate acestea, există uneori probleme legate de metoda regresiei MCO. Aceste probleme ar putea fi pierderea de date din cauza generării oricărei valori nedefinite prin luarea în considerare a jurnalului valorii zero. De asemenea, ar putea fi generată din cauza lipsei de modelare a datelor dispersate.

4. Modele zero-umflate

Aceste tipuri de modele încearcă să țină seama de toate zerourile în exces din model.

Analiză folosind regresia binomială negativă

Comanda „nbreg” este utilizată pentru estimarea modelului de regresie binomială negativă. Există un „i” înaintea variabilei „prog”. Prezența lui „i” indică faptul că variabila este de tip factor, adică variabilă categorială. Acestea ar trebui incluse ca variabile indicator în model.

Ieșirea modelului începe cu un jurnal de iterații. Se începe prin potrivirea modelului lui Poisson, urmată de un model nul și apoi de modelul binomului negativ. Metoda folosește estimarea probabilității maxime și continuă să itereze până când există o modificare a valorii jurnalului final. Probabilitatea jurnalului este utilizată pentru compararea modelelor.
Următoarele informații se află în fișierul antet.
Există informații despre coeficienții regresiei binomiale negative chiar sub antet. Coeficienții sunt generați pentru fiecare variabilă împreună cu erorile, cum ar fi valorile p, scorurile z. Există, de asemenea, un interval de încredere de 95% pentru toți coeficienții. Coeficientul pentru variabila „matematică” este -0,006, ceea ce denotă că este semnificativă statistic. Rezultatul înseamnă că, dacă există o creștere într-o unitate a variabilei „matematice”, numărul de log așteptat pentru numărul absent de zile scade cu o valoare de 0,006. De asemenea, valoarea 2. prog, variabila indicator, este diferența așteptată în numărul de log între cele două grupuri (grupul 2 și grupul de referință).
Estimarea parametrului pentru supradispersia jurnalului transferat este realizată și apoi afișată cu valoarea netransformată. În modelul Poisson, valoarea este zero.
Există o informație de probabilitate a testului de raport sub tabelul cu coeficienți. Modelul poate fi înțeles în continuare prin utilizarea comenzilor „margins”.

Procesul de analiză a regresiei binomiale negative în Python

Pachetele necesare pentru desfășurarea procesului de regresie trebuie să fie importate din Python. Aceste pachete sunt enumerate mai jos:

import statsmodels.api ca sm
import matplotlib.pyplot ca plt
import numpy ca np
din matricele de import patsy
import panda ca pd

Considerații pentru regresia binomială negativă

Există câteva lucruri care ar trebui luate în considerare atunci când se aplică metoda analizei regresiei binomiale negative. Acestea includ:

Dacă există prezența unor eșantioane mici, atunci metoda regresiei binomiale negative nu este recomandată.
Uneori există zerouri în exces care ar putea fi o cauză a supradispersiei. Aceste zerouri pot fi generate datorită procesului de adăugare a generării de date. Dacă apare un astfel de tip de caz, se recomandă utilizarea metodei modelului zero-umflat.
Dacă procesul de generare a datelor nu ia în considerare zerouri, atunci în astfel de cazuri, se recomandă utilizarea metodei modelului trunchiat cu zero.
Există o variabilă de expunere asociată cu datele de numărare. Variabila indică momentele în care există șansa ca evenimentul să se producă. Această variabilă este necesară pentru a fi încorporată în modelul de regresie binomială negativă. Acest lucru se face prin opțiunea exp().
Variabila rezultat nu poate fi nicio valoare negativă în modelul analizei regresiei binomiale negative. De asemenea, variabila de expunere nu poate avea valoarea 0.
Comanda „glm” poate fi folosită și pentru rularea unei metode de analiză a regresiei binomiale negative. Acest lucru se poate face prin link-ul jurnalului și, de asemenea, prin familia de binoame.
Comanda „glm” este necesară pentru obținerea reziduurilor. Aceasta este pentru a verifica dacă există alte ipoteze în modelul de regresie binomială negativă.
Există existența diferitelor măsuri ale pseudo-R-pătratului. Cu toate acestea, fiecare măsură oferă informații similare cu informațiile furnizate de pătratul R în regresia MCO.

Concluzie

Articolul a discutat subiectul regresiei binomiale negative . Am văzut că este aproape similară cu metoda regresiilor multiple și este o formă generalizată a distribuției Poisson. Există mai multe aplicații ale metodei. Tehnica poate fi aplicată și prin limbajul de programare python sau în R.

Sunt prezente și mai multe studii de caz care arată aplicarea acesteia în studii precum îmbătrânirea. De asemenea, modelele clasice de regresii care pot fi utilizate pe datele de numărare sunt regresia Poisson, regresia binomială negativă și regresia geometrică. Aceste metode aparțineau familiei de modele liniare și au fost incluse în aproape toate pachetele statistice, cum ar fi sistemul R.

Dacă doriți să excelați în învățarea automată și doriți să explorați domeniul datelor, atunci puteți verifica cursul Executive PG Program in Machine Learning și AI oferit de upGrad. Așadar, dacă sunteți un profesionist care visează să fie un expert în învățarea automată, veniți și câștigați experiența de a vă instrui sub experți. Mai multe detalii pot fi obținute prin intermediul site-ului nostru. Pentru orice întrebări, echipa noastră vă poate ajuta cu promptitudine.

Vrei să distribui acest articol?

Îmbunătățiți-vă cariera în învățarea automată și inteligența artificială

Aplicați acum pentru certificarea executivă în Ai-ml de la IIITB