Chi Square Test: Introduzione, Come calcolare, Quando usarlo

Pubblicato: 2022-11-09

In statistica, il test del chi quadrato viene utilizzato per analizzare i dati dalle osservazioni di una raccolta di variabili normalmente distribuita. In genere, ciò comporta il contrasto di due insiemi di informazioni numeriche. Karl Pearson ha proposto per primo questo metodo di analisi e distribuzione dei dati categoriali, chiamandolo test del chi quadrato di Pearson.

Il test del chi quadrato sviluppato da Pearson viene utilizzato in una tabella di contingenza per valutare se esiste una differenza statistica significativa tra le frequenze previste ed effettive in una o più delle categorie della tabella del chi quadrato.

Statisticamente, gli statistici utilizzano il test del chi quadrato per determinare quanto bene un modello si adatta ai dati. Le statistiche del chi quadrato richiedono un campione di dati variabili casuali, mutuamente esclusivi, grezzi e indipendenti di dimensioni sufficienti.

Iscriviti al corso di Machine Learning dalle migliori università del mondo. Guadagna master, Executive PGP o programmi di certificazione avanzati per accelerare la tua carriera.

Sommario

Terminologie di base del test del chi quadrato

La formula standard per il calcolo di un test del chi quadrato è la somma degli errori quadrati o dei falsi positivi divisa per la varianza campionaria. Ci sono alcuni termini che vengono implementati quando si utilizza il test del chi quadrato. Questi termini sono stati definiti di seguito:

valore p

Il p-value è la probabilità di ottenere un chi quadrato uguale o maggiore di quello del presente esperimento e i dati supportano ancora l'ipotesi. Questa probabilità è espressa in percentuale. Si riferisce alla probabilità che le variazioni previste non siano causate da nient'altro che da eventi casuali.
Se il p-value è inferiore a 0,05, l'ipotesi presa in considerazione è accettata. Se il valore è maggiore di 0,05, l'ipotesi viene rifiutata.

Grado di libertà

Un problema di stima ha un certo grado di libertà pari al numero di variabili indipendenti. Sebbene non ci siano limiti rigidi ai valori di queste variabili, impongono limiti ad altre variabili se vogliamo che il nostro set di dati sia coerente con i parametri stimati.

Una definizione di "grado di libertà" è il maggior numero di valori nel set di dati che sono logicamente indipendenti l'uno dall'altro e quindi soggetti a modifiche. Sottraendo uno dal numero totale di osservazioni in un set di dati si ottiene il grado di libertà.

Un contesto importante in cui viene affrontato il concetto di grado di libertà è nel contesto di test di ipotesi statistiche come il chi quadrato.

La comprensione del significato di una statistica chi-quadrato e della robustezza dell'ipotesi nulla si basa fortemente sul calcolo accurato del grado di libertà.

Varianza

La varianza di un campione di numeri casuali è una misura della sua dispersione attorno alla sua media. Si calcola al quadrato del valore della deviazione standard.

Proprietà per eseguire il test del chi quadrato

Il test del chi quadrato ha le seguenti proprietà:

  • La distribuzione media è uguale al numero di gradi di libertà.
  • La varianza dovrebbe essere pari al doppio del grado di libertà.
  • All'aumentare del grado di libertà, la curva di distribuzione del chi quadrato inizia ad assomigliare alla curva di distribuzione normale, cioè una curva a campana.

I migliori corsi di apprendimento automatico e corsi di intelligenza artificiale online

Master of Science in Machine Learning e AI presso LJMU Programma post-laurea esecutivo in Machine Learning e AI di IIITB
Programma di certificazione avanzato in Machine Learning e NLP da IIITB Programma di certificazione avanzato in Machine Learning e Deep Learning da IIITB Programma post-laurea esecutivo in Data Science e Machine Learning presso l'Università del Maryland
Per esplorare tutti i nostri corsi, visita la nostra pagina qui sotto.
Corsi di apprendimento automatico

Come eseguire il test del chi quadrato?

Il chi quadrato per la distribuzione viene calcolato utilizzando la formula seguente:

2 = [(Valore osservato – Valore atteso ) 2 / Valore atteso]

Passaggi da seguire per calcolare la statistica Chi-quadrato

  1. Calcola il valore osservato e quello atteso.
  2. Sottrarre ciascuno dei valori attesi dal valore osservato nella tabella di distribuzione.
  3. Al quadrato il valore per ogni osservazione che ottieni nel passaggio 2.
  4. Dividi ciascuno di questi valori quadrati per i corrispondenti valori attesi.
  5. Sommando tutti i valori che otteniamo nel passaggio 4 si ottiene un valore che definisce la statistica del chi quadrato.
  6. Calcolare il grado di libertà per verificare la suddetta soddisfazione della proprietà dei test del chi quadrato.

Tipi di test del chi quadrato

Bontà di adattamento

Se vuoi vedere quanto bene un campione della popolazione rappresenta l'intera, puoi applicare il test di bontà di adattamento del chi quadrato. La popolazione campione e la popolazione campione proiettata vengono confrontate utilizzando questa tecnica.

Prova per l'indipendenza

Questo test del chi quadrato per l'indipendenza di una popolazione per determinare se esiste una correlazione tra due variabili categoriali. Il test indipendente differisce dal test di bontà di adattamento in quanto non confronta un singolo parametro osservato con una popolazione teorica. Invece, il test di indipendenza confronta due valori all'interno di un insieme di campioni l'uno con l'altro.

Test per l'omogeneità

Come per il test di indipendenza, il test di omogeneità segue lo stesso formato e la stessa procedura. La distinzione fondamentale tra i due è che il test di omogeneità esamina se una variabile ha la stessa distribuzione in molte popolazioni. Al contrario, il test di indipendenza esamina la presenza di un legame tra due variabili categoriali all'interno di una popolazione simile.

Quando dovresti usare un test del chi quadrato?

Il test del chi quadrato determina se i valori effettivi sono coerenti con le probabilità teoriche. Chi-Square è il test più affidabile da utilizzare quando i dati analizzati provengono da un campione casuale e la variabile in questione è categoriale.

Competenze di apprendimento automatico richieste

Corsi di Intelligenza Artificiale Corsi di Tableau
Corsi di PNL Corsi di deep learning

Dove viene utilizzato il test del chi quadrato?

Prendiamo l'esempio di una società di marketing.
Una società di marketing sta esaminando la correlazione tra la geografia dei consumatori e le scelte di marca. Di conseguenza, il chi-quadrato gioca un ruolo significativo e il valore della statistica indicherà come l'azienda può adattare il proprio approccio di marketing a tutte le aree geografiche al fine di massimizzare i ricavi.
Quando si analizzano i dati, il test del chi quadrato è utile per verificare la coerenza o l'indipendenza delle variabili categoriali, nonché il modello di bontà di adattamento in esame.

Allo stesso modo, la statistica del chi quadrato può trovare impiego nella professione medica. Il test del chi quadrato è adatto per determinare l'efficacia di un medicinale rispetto a un gruppo di controllo.

Blog popolari di Machine Learning e Intelligenza Artificiale

IoT: storia, presente e futuro Esercitazione sull'apprendimento automatico: impara il ML Cos'è l'algoritmo? Semplice e facile
Stipendio per ingegnere robotico in India: tutti i ruoli Un giorno nella vita di un ingegnere di machine learning: cosa fanno? Cos'è l'IoT (Internet delle cose)
Permutazione vs combinazione: differenza tra permutazione e combinazione Le 7 tendenze principali nell'intelligenza artificiale e nell'apprendimento automatico Machine Learning con R: tutto ciò che devi sapere

Conclusione

In questo articolo, hai imparato le statistiche del chi quadrato e come calcolarne i valori. Poiché il Chi-quadrato funziona con variabili categoriali, viene spesso utilizzato dagli accademici che studiano i dati delle risposte ai sondaggi. Questa forma di studio è comune in molti campi, tra cui sociologia, psicologia, economia, scienze politiche e marketing.

Ottieni il tuo Master of Science in Machine Learning e AI con upGrad

Stai finalmente cercando di conseguire un Master of Science? upGrad ha collaborato con IIIT-B e Liverpool John Moores University per offrirti il ​​corso più curato possibile. Con il Master of Science in Machine Learning e AI , imparerai tutte le abilità richieste nel campo del ML e dell'IA, come l'elaborazione del linguaggio naturale, l'apprendimento profondo, l'apprendimento per rinforzo, ecc.

Criteri di ammissibilità:

  • Completamento della laurea con il 50%
  • Completamento dell'Executive Post Graduate Program in Machine Learning e AI di IIIT-B
  • Preferibile esperienza lavorativa minima di un anno

Cosa ti offre questo corso:

  • Più di 750 ore di materiale didattico da cui imparare
  • Progettato per i professionisti che lavorano
  • Più di 15 incarichi e casi di studio
  • Più di 12 progetti, di cui 6 sono progetti capstone
  • Corsi di codifica dal vivo
  • Laboratori di costruzione di profili
  • Bootcamp di carriera
  • Coaching individuale ad alte prestazioni
  • Sessioni individuali di tutoraggio professionale
  • Opportunità di lavoro esclusive
  • Sessioni di settore personalizzate

In che modo il valore p è correlato al test del chi quadrato?

Il valore p è la regione sotto la curva di densità del chi quadrato che si trova a destra del valore della statistica del test. Indipendentemente dal fatto che la statistica del test del chi quadrato sia sufficientemente grande da rifiutare l'ipotesi nulla è l'ultimo passaggio nel test di significatività del chi quadrato. Il valore p viene utilizzato per questo scopo.

Ci sono limitazioni o svantaggi nell'uso del test del chi quadrato?

Tutti gli individui studiati devono essere unici; altrimenti, i risultati sarebbero privi di significato. Un test del chi quadrato non dovrebbe essere utilizzato se un determinato intervistato può essere classificato in due gruppi distinti. Ancora un'altra restrizione del chi quadrato è che può essere utilizzato solo per i dati di frequenza. Inoltre, la somma di tutte le persone previste in tutte le classi dovrebbe essere maggiore di 5.

Quali sono i punti di forza del test del chi quadrato?

Uno dei suoi principali punti di forza è che il chi-quadrato può essere calcolato rapidamente e facilmente. I dati nominali possono essere utilizzati anche utilizzando questo metodo. Può anche essere utilizzato per confrontare più di due gruppi di variabili categoriali per la significatività statistica.