Machtanalyse in der Statistik: Was ist das & wie wird sie durchgeführt?

Veröffentlicht: 2021-01-08

Das Testen von Hypothesen ist ein entscheidender Aspekt jeder statistischen Analyse. Damit der Test, den wir durchführen, so korrekt wie möglich ist, müssen jedoch viele Dinge vordefiniert werden. Hier kommt der Machtbegriff ins Spiel und definiert die Heuristik eines statistischen Tests.

Am Ende dieses Tutorials wissen Sie:

Heuristik statistischer Tests
Was ist die Power eines Tests?
Wozu braucht man Power Analysis?
So führen Sie eine Leistungsanalyse durch

Inhaltsverzeichnis

Heuristik statistischer Tests

Durchführung korrekter statistischer Tests auf mehreren Heuristiken, die vor der Durchführung des Tests voreingestellt werden müssen. Es ist sehr wichtig, die richtigen Heuristiken einzustellen, da diese nicht mehr geändert werden können, sobald der Test gestartet wurde. Werfen wir einen Blick auf einige davon.

1. Signifikanzniveau und Konfidenzintervall

Vor Beginn eines statistischen Tests muss eine Wahrscheinlichkeitsschwelle festgelegt werden. Dieser Schwellenwert oder dieses Signifikanzniveau wird als kritischer Wert (Alpha) bezeichnet. Der gesamte Bereich unter der Wahrscheinlichkeitskurve jenseits des Alpha-Werts wird als kritischer Bereich bezeichnet.

Der Alpha-Wert sagt uns, wie weit der Probendatenpunkt (oder der experimentelle Punkt) von der Nullhypothese (ursprünglicher Mittelwert) entfernt sein muss, bevor wir zu dem Schluss kommen, dass es ungewöhnlich genug ist, die Nullhypothese abzulehnen. Ein gebräuchlicher Alpha-Wert ist 0,05 oder 95 % Konfidenzintervall.

2. P-Wert

Um zu beurteilen, ob die von uns erhaltenen Testergebnisse statistisch signifikant sind oder nicht, vergleichen wir den kritischen Wert (Alpha), den wir vor dem Test festgelegt hatten, mit dem P-Wert des Tests. Der p-Wert ist die Wahrscheinlichkeit, Werte zu erhalten, die so extrem oder noch extremer sind wie der Wert, auf den wir testen.

3. Fehler vom Typ 1 und Typ 2

Die statistischen Tests können nie 100 % sicher sein. Es gibt immer Raum für Fehler und Irreführung durch die Ergebnisse. Wenn wir, wie oben besprochen, einen Alpha-Wert von 0,05 festlegen, ergibt sich ein Konfidenzintervall von 95 %. Daher besteht eine Wahrscheinlichkeit von 5 %, dass das von Ihnen erhaltene Ergebnis falsch und irreführend ist. Diese falschen Ergebnisse nennen wir Fehler. Es gibt 2 Arten von Fehlern – Typ 1 und Typ 2.

Der Wert des Signifikanzniveaus von 0,05 bedeutet, dass Ihr statistischer Test zu 95 % richtig ist. Was auch bedeutet, dass es eine 5%ige Chance gibt, dass es falsch ist! Das wird ein Fall sein, in dem Sie die Nullhypothese ablehnen, obwohl sie richtig war. Dies ist ein Beispiel für einen Typ-1-Fehler. Und wir können auch sagen, dass alpha( α ) die Wahrscheinlichkeit ist, einen Fehler 1. Art zu begehen.

Es kann auch ein Fall sein, wenn Sie schlussfolgern, dass die Nullhypothese wahr ist, oder sie akzeptieren, wenn sie falsch ist. Technisch gesehen können wir die Nullhypothese niemals akzeptieren. Wir können es nur ablehnen. Das nennen wir einen Typ-2-Fehler. In ähnlicher Weise wird die Wahrscheinlichkeit, dass Sie einen Typ-2-Fehler machen, durch Beta — β angegeben .

Lesen Sie: Datenanalysten: Top-Fähigkeiten und -Tools, die es zu meistern gilt

Was ist die Aussagekraft eines statistischen Tests?

Die Teststärke ist die Wahrscheinlichkeit, die Nullhypothese korrekt abzulehnen, wenn sie falsch ist. Oder anders gesagt, die Leistung ist umgekehrt proportional zur Wahrscheinlichkeit, einen Fehler 2. Art zu machen. Daher ist Leistung = 1- β. Wenn wir zum Beispiel die Power auf 80 % setzen, dann meinen wir, dass 80 % unserer statistischen Tests richtig sind und nicht die falschen. Je höher also der Power-Wert, desto geringer ist die Wahrscheinlichkeit, einen Fehler 2. Art zu begehen.

Aber warum können die Ergebnisse falsch sein? Denn hier handelt es sich um Stichproben. Und manchmal ist die gezogene Stichprobe zu weit vom Mittelwert der Verteilung entfernt und liefert daher unrealistische Ergebnisse, was uns zu falschen Entscheidungen zwingt. Das ganze Ziel der Machtanalyse ist es, uns davon abzuhalten, diese falschen Entscheidungen zu treffen.

Machen wir P-Hacking?

Nehmen wir ein Beispiel, bei dem wir einen Impfstoff gegen COVID-19 hergestellt haben und wir sehr sicher sind, dass der Impfstoff signifikante Ergebnisse erzielen wird. Wir führen einen statistischen Test durch, um zu sehen, ob unsere Überzeugung auch statistisch zutrifft. Setzen Sie also Alpha auf 0,05 und führen Sie einen Test mit 100 Samples durch.

Nach dem Test erhalten wir einen P-Wert von 0,06. Wir sehen, dass es so nahe an unserem Alpha liegt, aber nicht weniger als es, so dass wir die Nullhypothese sicher ablehnen können. Es ist verlockend zu sehen, was passiert, wenn wir die Proben erhöhen und den Test wiederholen.

Also fügen wir 50 weitere Samples hinzu und sehen, dass der P-Wert jetzt 0,045 beträgt. Haben wir gerade bewiesen, dass unser Impfstoff statistisch signifikant ist? NEIN! Wir haben einfach P-gehackt, als wir die Anzahl der Proben erhöhten, nachdem wir das erste Ergebnis erhalten hatten. Erfahren Sie mehr über Was ist P-Hacking und wie kann man es vermeiden?

Was ist Leistungsanalyse?

Wie wir im obigen Beispiel gesehen haben, stellten wir fest, dass die Stichprobengröße klein war, und wir haben sie später erhöht. Das ist falsch und sollte niemals gemacht werden. Der Wert für die Stichprobengröße sollte vor Beginn des Tests selbst voreingestellt werden. Aber welcher Wert der Stichprobengröße ist der richtige für uns?

Betrachten wir ein Beispiel, bei dem wir mehrere Tests mit einer Stichprobengröße von nur 1 durchführen. Wenn wir also 1 Datenpunkt zufällig aus der Grundgesamtheit abtasten, kann dies entweder um den Mittelwert liegen, der unsere Daten korrekt darstellt, oder es kann auch viel sein weit vom Mittelwert entfernt und stellt die Daten nicht gut dar.

Das Problem tritt auf, wenn wir statistische Tests mit diesen weit entfernten Datenpunkten durchführen. Der P-Wert, den wir erhalten, ist falsch. Wir führen nun eine weitere Testreihe mit 2 als Stichprobengröße durch. Selbst wenn ein Wert weit vom Datenmittelwert entfernt ist, zieht der andere Wert, der sich auf der anderen Seite der Verteilung befindet, den Durchschnitt von ihnen in die Mitte, wodurch die Wirkung dieses weit entfernten Werts verringert wird. Daher werden unsere Ergebnisse bei einer Stichprobengröße von 2 mit korrekten P-Werten zutreffender.

Power Analysis ist die Technik, die verwendet wird, um die richtige Menge an Stichprobengröße zu ermitteln, die erforderlich ist, um Tests so gut wie möglich durchzuführen. Je höher die Power, die wir benötigen, desto mehr Stichprobengröße wird benötigt. Sie könnten also denken, warum nicht einfach eine große Stichprobengröße nehmen, denn eine große Stichprobengröße bedeutet bessere und vertrauenswürdigere Ergebnisse. Dies ist nicht richtig, da das Sammeln von Daten kostspielig ist und die Kenntnis der erforderlichen Stichprobengröße unerlässlich ist.

Wie führe ich eine Leistungsanalyse durch?

Die Aussagekraft eines Tests hängt von einigen Faktoren ab. Der erste Schritt zur Durchführung einer Leistungsanalyse besteht darin, einen Leistungswert festzulegen. Bedenken Sie, dass Sie eine allgemeine Potenz von 0,8 festlegen, was bedeutet, dass Sie eine Wahrscheinlichkeit von mindestens 80 % haben möchten, die Nullhypothese korrekt abzulehnen. Wenn wir die Wirkung des COVID-19-Impfstoffs auf eine Gruppe von Personen validieren, möchten wir nachweisen, dass sich die Verteilung der Datenpunkte von geimpften Personen von der von Personen unterscheidet, denen ein Placebo verabreicht wurde.

1. Betrag der Überlappung

Wir müssen das Ausmaß der Überlappung zwischen den beiden Verteilungen berücksichtigen, die wir vergleichen. Je größer die Überlappung, desto schwieriger wird es für uns, die Null sicher abzulehnen, und daher benötigen wir eine größere Stichprobengröße. Wenn die Überlappung jedoch sehr gering ist, können wir die Null ganz einfach sicher zurückweisen. Und wir würden eine deutlich geringere Stichprobengröße benötigen. Die Überlappung hängt vom Abstand zwischen den Mittelwerten der beiden Verteilungen und ihren Standardabweichungen ab.

2. Effektgröße

Die Effektgröße ist eine Möglichkeit, die Effekte der Differenz zwischen den Mittelwerten und den Standardabweichungen der Grundgesamtheiten zu kombinieren. Die Effektgröße (d) wird berechnet als die geschätzte Differenz zwischen den Mittelwerten dividiert durch die gepoolten geschätzten Standardabweichungen. Eine der einfachsten Methoden zur Berechnung gepoolter geschätzter Standardabweichungen ist die Quadratwurzel der quadrierten Summe der Standardabweichungen dividiert durch 2.

Sobald wir also den Power-Wert, den Alpha-Wert und die Effektgröße haben, können wir diese Werte in einen Statistik-Power-Rechner stecken und den Stichprobengrößenwert erhalten. Ein solcher Statistik-Leistungsrechner ist leicht im Internet verfügbar.

Holen Sie sich eine Data-Science-Zertifizierung von den besten Universitäten der Welt. Lernen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

Bevor du gehst

Wir haben die Stichprobengröße berechnet, indem wir eine Leistungsanalyse unter Verwendung von Leistung, Alpha und Effektgröße durchgeführt haben. Wenn wir also einen Stichprobenumfang von 7 erhalten, bedeutet dies, dass wir einen Stichprobenumfang von 7 benötigen, um eine 80-prozentige Chance zu haben, die Nullhypothese korrekt zurückzuweisen. Das richtige Maß an Fachkenntnissen ist auch entscheidend, um die Populationsmittelwerte und ihre Überschneidungen sowie die erforderliche Leistung abzuschätzen.

Wenn Sie neugierig sind, mehr über Data Science zu erfahren, schauen Sie sich das PG Diploma in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1- on-1 mit Mentoren aus der Branche, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.

Was ist Leistungsanalyse?

Die Stärke eines Tests oder einer Stärkeanalyse ist die Wahrscheinlichkeit, die Nullhypothese korrekt abzulehnen, wenn sie falsch ist. Oder anders gesagt, die Leistung ist umgekehrt proportional zur Wahrscheinlichkeit, einen Fehler 2. Art zu machen. Daher ist Leistung = 1-β. Wenn wir zum Beispiel die Power auf 80 % setzen, dann meinen wir, dass 80 % unserer statistischen Tests richtig und nicht falsch sind. Je höher also der Power-Wert, desto geringer ist die Wahrscheinlichkeit, einen Fehler 2. Art zu begehen. Bei der Leistungsanalyse geht es darum, falsche Entscheidungen zu verhindern, da wir mit verschiedenen Zufallsstichproben arbeiten und die Wahrscheinlichkeit hoch ist, dass ihr Mittelwert einen unrealistischen Mittelwert ergibt und uns zu falschen Entscheidungen verleitet.

Welche Faktoren werden bei der Durchführung unserer Leistungsanalyse berücksichtigt?

Es gibt bestimmte Faktoren, die den Test für die Leistungsanalyse beeinflussen. Der allererste Schritt besteht darin, den Leistungswert einzustellen. Angenommen, wir haben eine Potenz von 0,7, was bedeutet, dass Sie eine Wahrscheinlichkeit von 70 % haben, die Nullhypothese abzulehnen. Nachfolgend sind die Einflussfaktoren der Leistungsanalyse aufgeführt. Der Überlappungsbetrag ist die Überlappung zwischen den beiden zu vergleichenden Verteilungen. Die Überlappung sollte so gering wie möglich sein, da die Größe der Überlappung direkt proportional zur Schwierigkeit ist, Null zu berechnen. Die Effektgröße ist eine Methode, um die Differenz zwischen dem Mittelwert und der Standardabweichung der Populationen zu vereinigen. Sie wird mit „d“ bezeichnet und wird als geschätzte Differenz zwischen den Mittelwerten dividiert durch die gepoolten geschätzten Standardabweichungen berechnet. Da wir jetzt den Power-Wert, den Alpha-Wert (Menge der Überlappung) und die Effektgröße haben, können wir die Power-Analyse leicht durchführen.

Was ist P-Hacking?

P-Hacking oder Data Dredging ist eine Methode, um die Datenanalysetechniken zu missbrauchen, um Muster in Daten zu finden, die signifikant erscheinen, es aber nicht sind. Diese Methode wirkt sich negativ auf die Studie aus, da sie falsche Versprechen gibt, signifikante Datenmuster zu liefern, was wiederum zu einem drastischen Anstieg der Anzahl falsch positiver Ergebnisse führen kann. P-Hacking kann nicht vollständig verhindert werden, aber es gibt einige Methoden, die es sicher reduzieren und helfen können, die Falle zu vermeiden.