Chi-Quadrat-Test: Einführung, Berechnung, Anwendung
Veröffentlicht: 2022-11-09In der Statistik wird der Chi-Quadrat-Test verwendet, um Daten aus Beobachtungen einer normalverteilten Sammlung von Variablen zu analysieren. Typischerweise beinhaltet dies das Gegenüberstellen von zwei Sätzen numerischer Informationen. Karl Pearson schlug zuerst diese Methode zur Analyse und Verteilung kategorialer Daten vor und nannte sie Pearsons Chi-Quadrat-Test.
Der von Pearson entwickelte Chi-Quadrat-Test wird in einer Kontingenztabelle verwendet, um zu bewerten, ob es einen signifikanten statistischen Unterschied zwischen den vorhergesagten und tatsächlichen Häufigkeiten in einer oder mehreren der Kategorien der Chi-Quadrat-Tabelle gibt.
Statistisch gesehen verwenden Statistiker den Chi-Quadrat-Test, um festzustellen, wie gut ein Modell zu den Daten passt. Chi-Quadrat-Statistiken benötigen eine zufällige, sich gegenseitig ausschließende, rohe, unabhängige variable Datenstichprobe von ausreichender Größe.
Melden Sie sich für den Machine Learning-Kurs an den besten Universitäten der Welt an. Erwerben Sie Master-, Executive PGP- oder Advanced Certificate-Programme, um Ihre Karriere zu beschleunigen.
Grundbegriffe des Chi-Quadrat-Tests
Die Standardformel zur Berechnung eines Chi-Quadrat-Tests ist die Summe der quadratischen Fehler oder falsch positiven Ergebnisse geteilt durch die Stichprobenvarianz. Es gibt einige Begriffe, die bei der Verwendung des Chi-Quadrat-Tests implementiert werden. Diese Begriffe wurden im Folgenden definiert:
p-Wert
Der p-Wert ist die Wahrscheinlichkeit, ein Chi-Quadrat zu erreichen, das gleich oder größer als das im vorliegenden Experiment ist, und die Daten stützen die Hypothese immer noch. Diese Wahrscheinlichkeit wird in Prozent ausgedrückt. Es bezieht sich auf die Wahrscheinlichkeit, dass erwartete Schwankungen nur durch zufällige Ereignisse verursacht werden.
Wenn der p-Wert kleiner als gleich 0,05 ist, wird die berücksichtigte Hypothese akzeptiert. Liegt der Wert über 0,05, wird die Hypothese verworfen.
Freiheitsgrad
Ein Schätzproblem hat einen gewissen Freiheitsgrad, der der Anzahl unabhängiger Variablen entspricht. Obwohl es keine festen Grenzen für die Werte dieser Variablen gibt, legen sie anderen Variablen Grenzen auf, wenn wir wollen, dass unser Datensatz mit den geschätzten Parametern übereinstimmt.
Eine Definition von „Freiheitsgrad“ ist die größte Anzahl von Werten im Datensatz, die logisch voneinander unabhängig sind und daher Änderungen unterliegen. Zieht man von der Gesamtzahl der Beobachtungen in einem Datensatz eins ab, erhält man den Freiheitsgrad.
Ein prominenter Kontext, in dem das Konzept der Freiheitsgrade angesprochen wird, ist der Kontext statistischer Hypothesentests wie dem Chi-Quadrat.
Das Verständnis der Signifikanz einer Chi-Quadrat-Statistik und der Robustheit der Nullhypothese hängt stark von der genauen Berechnung des Freiheitsgrades ab.
Varianz
Die Varianz einer Zufallszahlenstichprobe ist ein Maß für ihre Streuung um ihren Mittelwert. Sie wird berechnet, indem der Wert der Standardabweichung quadriert wird.
Eigenschaften zur Durchführung des Chi-Quadrat-Tests
Der Chi-Quadrat-Test hat folgende Eigenschaften:
- Die mittlere Verteilung entspricht der Anzahl der Freiheitsgrade.
- Die Varianz sollte gleich dem doppelten Freiheitsgrad sein.
- Mit zunehmendem Freiheitsgrad ähnelt die Chi-Quadrat-Verteilungskurve allmählich der Normalverteilungskurve, dh einer Glockenkurve.
Beste Online-Kurse für maschinelles Lernen und KI-Kurse
Master of Science in Machine Learning & AI von der LJMU | Executive Post Graduate Program in Machine Learning & AI vom IIITB | |
Advanced Certificate Program in Machine Learning & NLP von IIITB | Advanced Certificate Program in Machine Learning & Deep Learning von IIITB | Executive Post Graduate Program in Data Science & Machine Learning von der University of Maryland |
Um alle unsere Kurse zu erkunden, besuchen Sie unsere Seite unten. | ||
Kurse zum maschinellen Lernen |
Wie wird der Chi-Quadrat-Test durchgeführt?
Das Chi-Quadrat für die Verteilung wird mit der folgenden Formel berechnet:
2 = [(Beobachteter Wert – Erwarteter Wert ) 2 / Erwarteter Wert]
Schritte zum Berechnen der Chi-Quadrat-Statistik
- Berechnen Sie den beobachteten und den erwarteten Wert.
- Subtrahieren Sie jeden der erwarteten Werte vom beobachteten Wert in der Verteilungstabelle.
- Quadrieren Sie den Wert für jede Beobachtung, die Sie in Schritt 2 erhalten.
- Teilen Sie jeden dieser Quadratwerte durch die entsprechenden erwarteten Werte.
- Das Addieren aller Werte, die wir in Schritt 4 erhalten, ergibt einen Wert, der die Chi-Quadrat-Statistik definiert.
- Berechnen Sie den Freiheitsgrad, um die oben genannte Eigenschaftserfüllung von Chi-Quadrat-Tests zu überprüfen.
Arten von Chi-Quadrat-Tests
Güte der Anpassung
Wenn Sie sehen möchten, wie gut eine Stichprobe der Grundgesamtheit das Ganze repräsentiert, können Sie den Chi-Quadrat-Anpassungstest anwenden. Die Stichprobenpopulation und die prognostizierte Stichprobenpopulation werden mit dieser Technik verglichen.
Test auf Unabhängigkeit
Dieser Chi-Quadrat-Test auf Unabhängigkeit einer Population, um festzustellen, ob eine Korrelation zwischen zwei kategorialen Variablen besteht. Der unabhängige Test unterscheidet sich vom Test auf Güte der Anpassung, da er keinen einzelnen beobachteten Parameter mit einer theoretischen Grundgesamtheit vergleicht. Stattdessen vergleicht der Unabhängigkeitstest zwei Werte innerhalb einer Stichprobenmenge miteinander.
Test auf Homogenität
Wie beim Unabhängigkeitstest folgt der Test auf Homogenität dem gleichen Format und Verfahren. Der entscheidende Unterschied zwischen den beiden besteht darin, dass der Test auf Homogenität untersucht, ob eine Variable über viele Populationen hinweg dieselbe Verteilung aufweist. Im Gegensatz dazu untersucht der Unabhängigkeitstest das Vorhandensein einer Verbindung zwischen zwei kategorialen Variablen innerhalb einer ähnlichen Population.
Wann sollten Sie einen Chi-Quadrat-Test verwenden?
Der Chi-Quadrat-Test bestimmt, ob tatsächliche Werte mit theoretischen Wahrscheinlichkeiten übereinstimmen. Chi-Quadrat ist der zuverlässigste Test, wenn die zu analysierenden Daten aus einer Zufallsstichprobe stammen und die betreffende Variable kategorial ist.
Gefragte maschinelle Lernfähigkeiten
Kurse zu Künstlicher Intelligenz | Tableau-Kurse |
NLP-Kurse | Deep-Learning-Kurse |
Wo wird der Chi-Quadrat-Test verwendet?
Nehmen wir das Beispiel eines Marketingunternehmens.
Ein Marketingunternehmen untersucht die Korrelation zwischen Verbrauchergeographie und Markenentscheidungen. Folglich spielt das Chi-Quadrat eine bedeutende Rolle, und der Wert der Statistik wird Aufschluss darüber geben, wie das Unternehmen seinen Marketingansatz über die geografischen Regionen hinweg anpassen kann, um die Einnahmen zu maximieren.
Bei der Analyse von Daten ist der Chi-Quadrat-Test praktisch, um die Konsistenz oder Unabhängigkeit kategorialer Variablen sowie des betrachteten Modells der Anpassungsgüte zu überprüfen.
In ähnlicher Weise kann die Chi-Quadrat-Statistik in der Medizin Anwendung finden. Der Chi-Quadrat-Test eignet sich, um die Wirksamkeit eines Medikaments im Vergleich zu einer Kontrollgruppe zu bestimmen.
Beliebte Blogs zu maschinellem Lernen und künstlicher Intelligenz
IoT: Geschichte, Gegenwart und Zukunft | Lernprogramm für maschinelles Lernen: Lernen Sie ML | Was ist Algorithmus? Einfach & leicht |
Gehalt als Robotikingenieur in Indien: Alle Rollen | Ein Tag im Leben eines Machine Learning Engineers: Was machen sie? | Was ist IoT (Internet der Dinge) |
Permutation vs. Kombination: Unterschied zwischen Permutation und Kombination | Top 7 Trends in künstlicher Intelligenz und maschinellem Lernen | Maschinelles Lernen mit R: Alles, was Sie wissen müssen |
Fazit
In diesem Artikel haben Sie die Chi-Quadrat-Statistik kennengelernt und wie man ihre Werte berechnet. Da Chi-Quadrat mit kategorialen Variablen arbeitet, wird es häufig von Wissenschaftlern verwendet, die Antwortdaten aus Umfragen untersuchen. Diese Studienform ist in vielen Bereichen üblich, darunter Soziologie, Psychologie, Wirtschaftswissenschaften, Politikwissenschaft und Marketing.
Machen Sie Ihren Master of Science in Machine Learning & AI mit upGrad
Sie wollen endlich den Master of Science machen? upGrad hat mit IIIT-B und der Liverpool John Moores University zusammengearbeitet, um Ihnen den bestmöglich kuratierten Kurs anzubieten. Mit dem Master of Science in Machine Learning & AI erlernen Sie alle gefragten Skills im Bereich ML und AI wie Natural Language Processing, Deep Learning, Reinforcement Learning etc.
Zulassungskriterien:
- Abschluss Bachelor mit 50%
- Abschluss des Executive Post Graduate Program in Machine Learning & AI durch IIIT-B
- Eine Berufserfahrung von mindestens einem Jahr wird bevorzugt
Was dir dieser Kurs bietet:
- Mehr als 750 Stunden Kursmaterialien zum Lernen
- Entwickelt für Berufstätige
- Mehr als 15 Aufgaben und Fallstudien
- Mehr als 12 Projekte, davon 6 Abschlussprojekte
- Live-Coding-Kurse
- Profilbildende Workshops
- Karriere-Bootcamp
- Eins-zu-eins-Hochleistungscoaching
- Individuelle Karriere-Mentoring-Sitzungen
- Exklusive Stellenangebote
- Personalisierte Branchen-Sessions
Wie hängt der p-Wert mit dem Chi-Quadrat-Test zusammen?
Der p-Wert ist der Bereich unter der Chi-Quadrat-Dichtekurve, der sich rechts vom Wert der Teststatistik befindet. Ob die Chi-Quadrat-Teststatistik groß genug ist, um die Nullhypothese abzulehnen, ist der letzte Schritt im Chi-Quadrat-Test auf Signifikanz. Dazu wird der p-Wert verwendet.
Gibt es Einschränkungen oder Nachteile bei der Verwendung des Chi-Quadrat-Tests?
Alle untersuchten Personen müssen einzigartig sein; andernfalls wären die Ergebnisse bedeutungslos. Ein Chi-Quadrat-Test sollte nicht verwendet werden, wenn ein bestimmter Befragter in zwei unterschiedliche Gruppen eingeteilt werden kann. Eine weitere Einschränkung von Chi-Quadrat besteht darin, dass es nur für Häufigkeitsdaten verwendet werden kann. Außerdem sollte die Summe aller prognostizierten Personen über alle Klassen hinweg größer als 5 sein.
Was sind die Stärken des Chi-Quadrat-Tests?
Eine seiner Hauptstärken ist, dass Chi-Quadrat schnell und einfach berechnet werden kann. Unter Verwendung dieses Verfahrens können auch nominale Daten verwendet werden. Es kann auch verwendet werden, um mehr als zwei Gruppen kategorialer Variablen auf statistische Signifikanz zu vergleichen.