Analisi della potenza nelle statistiche: cos'è e come eseguirla?

Pubblicato: 2021-01-08

La verifica delle ipotesi è un aspetto cruciale di qualsiasi analisi statistica. Tuttavia, ci sono molte cose da definire in modo che il test che conduciamo possa essere il più corretto possibile. È qui che entra in gioco il concetto di potere e definisce l'euristica di un test statistico.

Alla fine di questo tutorial, saprai:

Euristica dei test statistici
Qual è il potere di un test?
Qual è la necessità dell'analisi della potenza?
Come eseguire l'analisi della potenza

Sommario

Euristica dei test statistici
- 1. Livello di significatività e intervallo di confidenza
- 2. Valore P
- 3. Errori di tipo 1 e di tipo 2
Qual è il potere di un test statistico?
- Stiamo P-Hacking?
Che cos'è l'analisi della potenza?
Come eseguire l'analisi della potenza?
- 1. Importo della sovrapposizione
- 2. Dimensione dell'effetto
Prima che tu vada
- Che cos'è l'analisi della potenza?
- Quali fattori vengono presi in considerazione durante l'esecuzione della nostra analisi della potenza?
- Cos'è P-Hacking?

Euristica dei test statistici

Esecuzione di test statistici corretti su diverse euristiche che devono essere preimpostate prima di condurre il test. È molto importante impostare le corrette euristiche poiché queste non possono essere modificate una volta avviato il test. Diamo un'occhiata ad alcuni di questi.

1. Livello di significatività e intervallo di confidenza

Prima di iniziare qualsiasi test statistico, è necessario impostare una soglia di probabilità. Questa soglia o livello di significatività è chiamato valore critico (alfa). La regione completa sotto la curva di probabilità oltre il valore alfa è chiamata regione critica.

Il valore alfa ci dice quanto deve essere lontano il punto dati del campione (o il punto sperimentale) dall'ipotesi nulla (punto medio originale) prima di concludere che è abbastanza insolito rifiutare l'ipotesi nulla. Un valore comune di alfa utilizzato è 0,05 o 95% di intervallo di confidenza.

2. Valore P

Per valutare se i risultati del test che abbiamo ottenuto sono statisticamente significativi o meno, confrontiamo il Critical Value (alfa) che avevamo impostato prima del test con il P-Value del test. Il p-value è la probabilità di ottenere valori estremi o addirittura più estremi del valore per il quale stiamo testando.

3. Errori di tipo 1 e di tipo 2

I test statistici non possono mai essere certi al 100%. C'è sempre spazio per errori e farsi fuorviare dai risultati. Come discusso in precedenza, se impostiamo un valore alfa di 0,05, c'è un intervallo di confidenza del 95%. Pertanto, c'è una probabilità del 5% che il risultato che hai ottenuto sia errato e fuorviante. Questi risultati errati sono ciò che chiamiamo errori. Esistono 2 tipi di errore: Tipo 1 e Tipo 2.

Il valore del livello di significatività di 0,05 significa che il test statistico sarà il 95% di volte corretto. Il che significa anche che c'è una probabilità del 5% che non sia corretto! Sarà un tuo caso che rifiuti l'ipotesi nulla quando era corretta. Questo è un esempio di errore di tipo 1. E possiamo anche dire che alpha( α ) è la probabilità di commettere un errore di tipo 1.

Può anche essere un caso in cui si conclude che l'ipotesi nulla è vera o la si accetta quando è falsa. Tecnicamente, non possiamo mai accettare l'ipotesi nulla. Possiamo solo non rifiutarlo. Questo è ciò che chiamiamo errore di tipo 2. Allo stesso modo, la probabilità che tu commetta un errore di tipo 2 è data da Beta — β .

Leggi: Analisti di dati: le migliori competenze e strumenti da padroneggiare

Qual è il potere di un test statistico?

Il potere di un test è la probabilità di rifiutare correttamente l'ipotesi nulla quando è falsa. O in altre parole, la Potenza è inversamente proporzionale alla probabilità di commettere un errore di tipo 2. Pertanto, Potenza = 1- β. Ad esempio, se impostiamo la potenza all'80%, significa che l'80% dei nostri test statistici è corretto e non quelli fasulli. Pertanto, maggiore è il valore della potenza, minore è la probabilità di commettere un errore di tipo 2.

Ma perché i risultati possono essere falsi? Questo perché abbiamo a che fare con campioni casuali qui. E a volte il campione prelevato è troppo lontano dalla media della distribuzione e quindi dà risultati non realistici, costringendoci a prendere decisioni sbagliate. L'intero scopo di Power Analysis è impedirci di prendere queste decisioni sbagliate.

Stiamo P-Hacking?

Prendiamo un esempio in cui abbiamo realizzato un vaccino per COVID-19 e siamo molto sicuri che il vaccino avrà risultati significativi. Procediamo a condurre un test statistico per vedere se la nostra convinzione è valida anche statisticamente. Quindi imposta l'alfa su 0,05 ed esegui un test utilizzando 100 campioni.

Dopo il test, otteniamo un valore P pari a 0,06. Vediamo che è così vicino al nostro alfa ma non meno di esso in modo che possiamo tranquillamente rifiutare l'ipotesi nulla. Viene la tentazione di vedere cosa succede se aumentiamo i campioni e rifacciamo il test.

Quindi aggiungiamo altri 50 campioni e vediamo che il valore P ora arriva a 0,045. Abbiamo appena dimostrato che il nostro vaccino è statisticamente significativo? NO! Abbiamo appena P-hackato mentre aumentavamo il numero di campioni dopo aver ottenuto il primo risultato. Ulteriori informazioni su Cos'è il P-Hacking e come evitarlo?

Che cos'è l'analisi della potenza?

Come abbiamo visto nell'esempio sopra, abbiamo scoperto che la dimensione del campione era piccola e l'abbiamo aumentata in seguito. Questo è sbagliato e non dovrebbe mai essere fatto. Il valore della dimensione del campione deve essere preimpostato prima di iniziare il test stesso. Ma quale valore della dimensione del campione è giusto per noi?

Consideriamo un esempio in cui eseguiamo più test utilizzando la dimensione del campione come solo 1. Pertanto, quando campioniamo 1 punto dati in modo casuale dalla popolazione, può essere intorno alla media che rappresenta correttamente i nostri dati, oppure può essere anche molto lontano dalla media e non rappresenta bene i dati.

Il problema sorge quando conduciamo test statistici utilizzando questi punti dati lontani. Il valore P che otterremo non sarà corretto. Ora conduciamo un'altra serie di test prendendo 2 come dimensione del campione. Ora, anche se un valore è lontano dalla media dei dati, l'altro valore che si trova sull'altro lato della distribuzione tirerà la media di essi al centro, riducendo così l'effetto di quel valore lontano. Pertanto, con una dimensione del campione di 2, i nostri risultati saranno più veri con valori P corretti.

L'analisi della potenza è la tecnica utilizzata per scoprire la giusta quantità di campione necessaria per condurre i test nel miglior modo possibile. Maggiore è la potenza di cui abbiamo bisogno di più è la quantità di dimensione del campione che sarà richiesta. Quindi potresti pensare che perché non prendere un campione di grandi dimensioni perché un campione di grandi dimensioni significa risultati migliori e più affidabili. Questo non è corretto in quanto la raccolta di dati è costosa ed è essenziale la conoscenza della dimensione del campione richiesta.

Come eseguire l'analisi della potenza?

La potenza di un test dipende da alcuni fattori. Il primo passo per eseguire un'analisi di potenza è impostare un valore di potenza. Considera di impostare una potenza comune di 0,8, il che significa che vuoi avere almeno l'80% di possibilità di rifiutare correttamente l'ipotesi nulla. Se stiamo convalidando l'effetto del vaccino COVID-19 su un insieme di persone, vogliamo dimostrare che la distribuzione dei punti dati delle persone vaccinate è diversa da quella delle persone a cui è stato somministrato un placebo.

1. Importo della sovrapposizione

Dobbiamo considerare la quantità di sovrapposizione tra le due distribuzioni che stiamo confrontando. Più la sovrapposizione, più difficile sarà per noi rifiutare in sicurezza il null e quindi avremo bisogno di più dimensioni del campione. Tuttavia, se la sovrapposizione è molto minore, allora possiamo facilmente rifiutare in sicurezza il null. E avremmo bisogno di una dimensione del campione molto inferiore. La sovrapposizione dipende dalla distanza tra le medie delle due distribuzioni e dalle loro deviazioni standard.

2. Dimensione dell'effetto

La dimensione dell'effetto è un modo per combinare gli effetti della differenza tra le medie e le deviazioni standard delle popolazioni. La dimensione dell'effetto (d) è calcolata come La differenza stimata tra le medie divisa per le deviazioni standard stimate aggregate. Uno dei modi più semplici per calcolare le deviazioni standard stimate in pool è la radice quadrata della somma al quadrato delle deviazioni standard divisa per 2.

Quindi, una volta che abbiamo il valore di potenza, il valore alfa e la dimensione dell'effetto, possiamo inserire questi valori in un calcolatore di potenza statistico e ottenere il valore della dimensione del campione. Un tale calcolatore di potenza statistica è facilmente disponibile su Internet.

Ottieni la certificazione di data science dalle migliori università del mondo. Impara i programmi Executive PG, Advanced Certificate Program o Master per accelerare la tua carriera.

Prima che tu vada

Abbiamo calcolato la dimensione del campione eseguendo l'analisi della potenza utilizzando la potenza, l'alfa e la dimensione dell'effetto. Quindi, se abbiamo un valore della dimensione del campione di 7, significa che abbiamo bisogno di una dimensione del campione di 7 per avere una probabilità dell'80% di rifiutare correttamente l'ipotesi nulla. Avere la giusta quantità di esperienza nel settore è fondamentale anche per stimare i mezzi della popolazione, le loro sovrapposizioni e il potere richiesto.

Se sei curioso di conoscere la scienza dei dati, dai un'occhiata al Diploma PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1- on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Che cos'è l'analisi della potenza?

La potenza di un test o di un'analisi della potenza è la probabilità di rifiutare correttamente l'ipotesi nulla quando è falsa. O in altre parole, la Potenza è inversamente proporzionale alla probabilità di commettere un errore di tipo 2. Pertanto, Potenza = 1-β. Ad esempio, se impostiamo la potenza all'80%, significa che l'80% dei nostri test statistici sono corretti e non falsi. Pertanto, maggiore è il valore della potenza, minore è la probabilità di commettere un errore di tipo 2. L'analisi della potenza consiste nel prevenire le decisioni sbagliate poiché stiamo gestendo vari campioni casuali e c'è un'alta probabilità che la loro media fornisca una media non realistica e ci porti a prendere decisioni errate.

Quali fattori vengono presi in considerazione durante l'esecuzione della nostra analisi della potenza?

Ci sono alcuni fattori che influenzano il test per l'analisi della potenza. Il primo passo è impostare il valore della potenza. Supponiamo di avere una potenza di 0,7 valore che implica una probabilità del 70% di rifiutare l'ipotesi nulla. Di seguito sono riportati i fattori che influiscono sull'analisi della potenza. La quantità di sovrapposizione è la sovrapposizione tra le due distribuzioni che vengono confrontate. La sovrapposizione dovrebbe essere la più piccola possibile poiché la quantità di sovrapposizione è direttamente proporzionale alla difficoltà di calcolare il valore nullo. La dimensione dell'effetto è un metodo per club la differenza tra la media e la deviazione standard delle popolazioni. È indicato con "d" ed è calcolato come la differenza stimata tra le medie divisa per le deviazioni standard stimate raggruppate. Dato che ora abbiamo il valore di potenza, il valore alfa (quantità di sovrapposizione) e la dimensione dell'effetto, possiamo facilmente eseguire l'analisi della potenza.

Cos'è P-Hacking?

Il P-Hacking o il dragaggio dei dati è un metodo per utilizzare in modo improprio le tecniche di analisi dei dati per trovare schemi nei dati che sembrano significativi ma non lo sono. Questo metodo influisce negativamente sullo studio in quanto fornisce false promesse di fornire modelli di dati significativi che possono, a loro volta, portare a un drastico aumento del numero di falsi positivi. Il P-hacking non può essere prevenuto completamente, ma ci sono alcuni metodi che possono sicuramente ridurlo e aiutare a evitare la trappola.