Testul Chi Square: Introducere, Cum se calculează, Când se utilizează

Publicat: 2022-11-09

În statistică, testul chi-pătrat este utilizat pentru a analiza datele din observațiile unei colecții de variabile distribuite în mod normal. De obicei, aceasta implică contrastarea a două seturi de informații numerice. Karl Pearson a propus pentru prima dată această metodă de analiză și distribuire a datelor categorice, numind-o testul chi-pătrat al lui Pearson.

Testul chi-pătrat dezvoltat de Pearson este utilizat într-un tabel de contingență pentru a evalua dacă există o diferență statistică semnificativă între frecvențele prezise și cele reale în una sau mai multe dintre categoriile tabelului chi-pătrat.

Statistic, statisticienii folosesc testul chi-pătrat pentru a determina cât de bine se potrivește un model cu datele. Statisticile chi-pătrat au nevoie de un eșantion de date variabile aleatorii, care se exclud reciproc, brute, independente, de dimensiune suficientă.

Înscrieți-vă la cursul de învățare automată de la cele mai bune universități din lume. Câștigă programe de master, Executive PGP sau Advanced Certificate pentru a-ți accelera cariera.

Cuprins

Terminologia de bază a testului chi-pătrat

Formula standard pentru calcularea unui test chi-pătrat este însumarea greșelilor pătrate sau a rezultatelor false pozitive împărțită la varianța eșantionului. Există câțiva termeni care sunt implementați atunci când se utilizează testul Chi-pătrat. Acești termeni au fost definiți mai jos:

valoarea p

Valoarea p este probabilitatea de a obține un chi-pătrat care este egal sau mai mare decât cel din experimentul de față, iar datele încă susțin ipoteza. Această probabilitate este exprimată ca procent. Se referă la probabilitatea ca variațiile anticipate să fie cauzate de nimic mai mult decât întâmplări aleatorii.
Dacă valoarea p este mai mică decât egală cu 0,05, atunci ipoteza luată în considerare este acceptată. Dacă valoarea este mai mare de 0,05, atunci ipoteza este respinsă.

Grad de libertate

O problemă de estimare are un anumit grad de libertate egal cu numărul de variabile independente. Deși nu există limite stricte pentru valorile acestor variabile, ele impun limite pentru alte variabile dacă dorim ca setul nostru de date să fie în concordanță cu parametrii estimați.

O definiție a „gradului de libertate” este cel mai mare număr de valori din setul de date care sunt logic independente una de cealaltă și, prin urmare, pot fi modificate. Deducerea uneia din numărul total de observații dintr-un set de date obține gradul de libertate.

Un context proeminent în care este abordat conceptul de grad de libertate este în contextul testelor de ipoteze statistice precum chi-pătratul.

Înțelegerea semnificației unei statistici chi-pătrat și a robusteței ipotezei nule se bazează în mare măsură pe calcularea cu precizie a gradului de libertate.

Varianta

Varianța unui eșantion cu numere aleatorii este o măsură a dispersiei sale în jurul mediei sale. Se calculează prin pătrarea valorii abaterii standard.

Proprietăți pentru efectuarea testului Chi-pătrat

Testul Chi-pătrat are următoarele proprietăți:

  • Distribuția medie este egală cu numărul de grade de libertate.
  • Varianta ar trebui să fie egală cu dublul gradului de libertate.
  • Pe măsură ce gradul de libertate crește, curba de distribuție chi-pătrat începe să semene cu curba de distribuție normală, adică o curbă clopot.

Cele mai bune cursuri de învățare automată și cursuri AI online

Master în învățare automată și IA de la LJMU Program executiv postuniversitar în Machine Learning și AI de la IIITB
Program de certificat avansat în Machine Learning și NLP de la IIITB Program de certificat avansat în Machine Learning și Deep Learning de la IIITB Program executiv postuniversitar în știința datelor și învățarea automată de la Universitatea din Maryland
Pentru a explora toate cursurile noastre, vizitați pagina noastră de mai jos.
Cursuri de învățare automată

Cum se efectuează testul Chi pătrat?

Chi-pătratul pentru distribuție se calculează folosind formula de mai jos:

2 = [(Valoare observată – Valoare așteptată ) 2 / Valoare așteptată]

Pași de urmat pentru a calcula statistica Chi-pătrat

  1. Calculați valoarea observată și cea așteptată.
  2. Scădeți fiecare dintre valorile așteptate din valoarea observată în tabelul de distribuție.
  3. Patratul valorii pentru fiecare observație pe care o obțineți la Pasul 2.
  4. Împărțiți fiecare dintre aceste valori pătrate la valorile așteptate corespunzătoare.
  5. Adunarea tuturor valorilor pe care le obținem în Pasul 4 dă o valoare care definește statistica chi-pătrat.
  6. Calculați gradul de libertate pentru a verifica satisfacerea proprietății menționate mai sus a testelor chi-pătrat.

Tipuri de test Chi-pătrat

Bunătatea potrivirii

Dacă doriți să vedeți cât de bine un eșantion din populație reprezintă întregul, puteți aplica testul de bunătate a potrivirii Chi pătrat. Populația eșantionului și populația eșantionului proiectată sunt comparate folosind această tehnică.

Test pentru independență

Acest test Chi-pătrat pentru independența unei populații pentru a determina dacă există o corelație între două variabile categorice. Testul independent diferă de testul de bunătate, deoarece nu compară un singur parametru observat cu o populație teoretică. În schimb, testul de independență compară două valori dintr-un set de eșantion una cu cealaltă.

Test pentru omogenitate

Ca și în cazul testului de independență, testul de omogenitate urmează același format și procedură. Distincția critică dintre cele două este că testul de omogenitate examinează dacă o variabilă are aceeași distribuție în mai multe populații. În schimb, testul pentru independență examinează prezența unei legături între două variabile categorice într-o populație similară.

Când ar trebui să utilizați un test Chi-pătrat?

Testul Chi-Pătrat determină dacă valorile reale sunt în concordanță cu probabilitățile teoretice. Chi-Pătratul este cel mai fiabil test de utilizat atunci când datele analizate provin dintr-un eșantion aleatoriu, iar variabila în cauză este categorică.

Abilități de învățare automată la cerere

Cursuri de inteligență artificială Cursuri Tableau
Cursuri NLP Cursuri de Deep Learning

Unde este folosit testul Chi-pătrat?

Să luăm exemplul unei companii de marketing.
O companie de marketing analizează corelația dintre geografia consumatorilor și alegerile de brand. În consecință, chi-pătratul joacă un rol semnificativ, iar valoarea statisticii va informa modul în care corporația își poate adapta abordarea de marketing în diferite zone geografice pentru a maximiza veniturile.
Când se analizează datele, testul Chi-pătrat este util pentru verificarea consistenței sau independenței variabilelor categoriale, precum și a modelului de bunăstare a potrivirii luat în considerare.

În mod similar, statistica chi-pătrat poate fi folosită în profesia medicală. Testul chi-pătrat este potrivit pentru a determina eficacitatea unui medicament în comparație cu un grup de control.

Bloguri populare de învățare automată și inteligență artificială

IoT: istorie, prezent și viitor Tutorial de învățare automată: Învățați ML Ce este algoritmul? Simplu și Ușor
Salariu inginer robotic în India: toate rolurile O zi din viața unui inginer de învățare automată: ce fac ei? Ce este IoT (Internet of Things)
Permutare vs combinație: diferența dintre permutare și combinație Top 7 tendințe în inteligența artificială și învățarea automată Învățare automată cu R: tot ce trebuie să știți

Concluzie

În acest articol, ați învățat despre statisticile Chi-pătrat și cum să calculați valorile acesteia. Deoarece chi-pătratul funcționează cu variabile categorice, este adesea folosit de către cadrele universitare care investighează datele de răspuns la sondaj. Această formă de studiu este comună în multe domenii, inclusiv sociologie, psihologie, economie, științe politice și marketing.

Obțineți un master în învățare automată și inteligență artificială cu upGrad

Cauți în sfârșit să obții un Master în Științe? upGrad a colaborat cu IIIT-B și Liverpool John Moores University pentru a vă oferi cel mai bine organizat curs posibil. Cu Master of Science în Machine Learning și AI , veți învăța toate abilitățile solicitate în domeniul ML și AI, cum ar fi Procesarea limbajului natural, Învățarea profundă, Învățarea prin consolidare etc.

Criterii de eligibilitate:

  • Finalizarea diplomei de licență cu 50%
  • Finalizarea programului executiv postuniversitar în învățare automată și IA de către IIIT-B
  • Se preferă o experiență de lucru minimă de un an

Ce vă oferă acest curs:

  • Peste 750 de ore de materiale de curs din care să înveți
  • Conceput pentru profesioniștii care lucrează
  • Peste 15 sarcini și studii de caz
  • Peste 12 proiecte, dintre care 6 sunt proiecte capstone
  • Cursuri de codare live
  • Ateliere de realizare a profilului
  • Bootcamp pentru carieră
  • Coaching individual de înaltă performanță
  • Sesiuni individuale de mentorat în carieră
  • Oportunitati de angajare exclusive
  • Sesiuni de industrie personalizate

Cum este valoarea p legată de testul Chi-pătrat?

Valoarea p este regiunea de sub curba densității chi-pătrat care se află în dreapta valorii statisticii de test. Dacă statistica testului chi-pătrat este sau nu suficient de mare pentru a respinge ipoteza nulă este ultimul pas în testul de semnificație al chi-pătrat. Valoarea p este utilizată în acest scop.

Există limitări sau dezavantaje în utilizarea testului Chi-pătrat?

Toți indivizii studiați trebuie să fie unici; altfel, rezultatele ar fi lipsite de sens. Un test chi-pătrat nu trebuie utilizat dacă un anumit respondent poate fi clasificat în două grupuri distincte. O altă restricție a chi-pătratului este că poate fi folosit doar pentru date de frecvență. În plus, suma tuturor persoanelor prezise din toate clasele ar trebui să fie mai mare de 5.

Care sunt punctele forte ale testului Chi-pătrat?

Unul dintre punctele sale principale principale este că chi-pătratul poate fi calculat rapid și ușor. Datele nominale pot fi, de asemenea, utilizate folosind această metodă. De asemenea, poate fi utilizat pentru a compara mai mult de două grupuri de variabile categorice pentru semnificația statistică.