Test Chi-kwadrat: Wprowadzenie, Jak obliczyć, Kiedy używać
Opublikowany: 2022-11-09W statystyce test chi-kwadrat służy do analizy danych z obserwacji zbioru zmiennych o rozkładzie normalnym. Zazwyczaj polega to na zestawieniu ze sobą dwóch zestawów informacji liczbowych. Karl Pearson jako pierwszy zaproponował tę metodę analizy i dystrybucji danych kategorycznych, nazywając ją testem chi-kwadrat Pearsona.
Test chi-kwadrat opracowany przez Pearsona jest stosowany w tabeli kontyngencji, aby ocenić, czy istnieje istotna statystyczna różnica między częstościami przewidywanymi i rzeczywistymi w jednej lub kilku kategoriach tabeli chi-kwadrat.
Statystycznie statystycy używają testu chi-kwadrat, aby określić, jak dobrze model pasuje do danych. Statystyka chi-kwadrat wymaga losowej, wzajemnie wykluczającej się, surowej, niezależnej próbki danych o dostatecznej wielkości.
Zapisz się na kurs uczenia maszynowego z najlepszych uniwersytetów na świecie. Zdobywaj programy Masters, Executive PGP lub Advanced Certificate Programy, aby przyspieszyć swoją karierę.
Podstawowe terminologie testu chi-kwadrat
Standardowy wzór na obliczenie testu chi-kwadrat to suma kwadratów błędów lub wyników fałszywie dodatnich podzielona przez wariancję próbki. Istnieje kilka terminów, które są implementowane podczas korzystania z testu chi-kwadrat. Terminy te zostały zdefiniowane poniżej:
wartość p
Wartość p to prawdopodobieństwo uzyskania chi-kwadrat równego lub większego niż w obecnym eksperymencie, a dane nadal potwierdzają hipotezę. To prawdopodobieństwo jest wyrażone w procentach. Odnosi się do prawdopodobieństwa, że przewidywane zmiany są spowodowane wyłącznie przypadkowymi zdarzeniami.
Jeżeli wartość p jest mniejsza niż 0,05, to uwzględniona hipoteza jest akceptowana. Jeśli wartość jest większa niż 0,05, hipoteza jest odrzucana.
Stopień wolności
Problem estymacji ma pewien stopień swobody równy liczbie zmiennych niezależnych. Chociaż nie ma sztywnych ograniczeń wartości tych zmiennych, nakładają one ograniczenia na inne zmienne, jeśli chcemy, aby nasz zbiór danych był zgodny z szacowanymi parametrami.
Jedna z definicji „stopnia swobody” to największa liczba wartości w zbiorze danych, które są od siebie logicznie niezależne, a zatem podlegają zmianom. Odjęcie jednego od całkowitej liczby obserwacji w zbiorze danych daje stopień swobody.
Jednym z widocznych kontekstów, w których omawiane jest pojęcie stopnia swobody, jest kontekst testów hipotez statystycznych, takich jak test chi-kwadrat.
Zrozumienie znaczenia statystyki chi-kwadrat i solidności hipotezy zerowej w dużej mierze zależy od dokładnego obliczenia stopnia swobody.
Zmienność
Wariancja próbki liczb losowych jest miarą jej rozrzutu wokół średniej. Jest obliczany przez podniesienie do kwadratu wartości odchylenia standardowego.
Właściwości do wykonania testu chi-kwadrat
Test Chi-kwadrat ma następujące właściwości:
- Rozkład średni jest równy liczbie stopni swobody.
- Wariancja powinna być równa dwukrotności stopnia swobody.
- Wraz ze wzrostem stopnia swobody krzywa rozkładu chi-kwadrat zaczyna przypominać krzywą rozkładu normalnego, tj. krzywą dzwonową.
Najlepsze kursy online na temat uczenia maszynowego i sztucznej inteligencji
Master of Science in Machine Learning & AI od LJMU | Program studiów podyplomowych dla kadry kierowniczej w zakresie uczenia maszynowego i sztucznej inteligencji z IIITB | |
Zaawansowany program certyfikacji w uczeniu maszynowym i NLP z IIITB | Zaawansowany program certyfikacji w uczeniu maszynowym i uczeniu głębokim z IIITB | Executive Post Graduate Program in Data Science & Machine Learning z University of Maryland |
Aby poznać wszystkie nasze kursy, odwiedź naszą stronę poniżej. | ||
Kursy na temat uczenia maszynowego |
Jak wykonać test chi-kwadrat?
Rozkład chi-kwadrat oblicza się według poniższego wzoru:
2 = [(Obserwowana wartość – Oczekiwana wartość ) 2 / Oczekiwana wartość]
Kroki, które należy wykonać, aby obliczyć statystykę chi-kwadrat
- Oblicz obserwowaną i oczekiwaną wartość.
- Odejmij każdą z oczekiwanych wartości od wartości obserwowanej w tabeli rozkładu.
- Podnieś do kwadratu wartość każdej obserwacji otrzymanej w kroku 2.
- Podziel każdą z tych wartości kwadratowych przez odpowiadające im wartości oczekiwane.
- Zsumowanie wszystkich wartości, które otrzymamy w kroku 4, daje wartość, która definiuje statystykę chi-kwadrat.
- Oblicz stopień swobody, aby sprawdzić spełnienie wyżej wymienionych właściwości testów chi-kwadrat.
Rodzaje testu chi-kwadrat
Dobroć dopasowania
Jeśli chcesz zobaczyć, jak dobrze próbka populacji reprezentuje całość, możesz zastosować test dobroci dopasowania chi-kwadrat. Za pomocą tej techniki porównuje się populację próbki i przewidywaną populację próbki.
Test na niezależność
Ten test chi-kwadrat na niezależność jednej populacji w celu określenia, czy istnieje korelacja między dwiema zmiennymi kategorialnymi. Niezależny test różni się od testu dobroci dopasowania, ponieważ nie porównuje pojedynczego obserwowanego parametru z populacją teoretyczną. Zamiast tego test niezależności porównuje ze sobą dwie wartości w zestawie próbek.
Test na jednorodność
Podobnie jak w przypadku testu niezależności, test jednorodności ma ten sam format i procedurę. Kluczowe rozróżnienie między nimi polega na tym, że test jednorodności sprawdza, czy zmienna ma taki sam rozkład w wielu populacjach. Natomiast test niezależności bada obecność powiązania między dwiema zmiennymi kategorialnymi w podobnej populacji.
Kiedy należy użyć testu Chi-kwadrat?
Test Chi-kwadrat określa, czy rzeczywiste wartości są zgodne z prawdopodobieństwem teoretycznym. Chi-kwadrat jest najbardziej wiarygodnym testem, którego można użyć, gdy analizowane dane pochodzą z próby losowej, a dana zmienna jest kategoryczna.
Umiejętności uczenia maszynowego na żądanie
Kursy sztucznej inteligencji | Kursy Tableau |
Kursy NLP | Kursy głębokiego uczenia się |
Gdzie jest używany test Chi-kwadrat?
Weźmy przykład firmy marketingowej.
Firma marketingowa przygląda się korelacji między geografią konsumentów a wyborami marki. W związku z tym chi-kwadrat odgrywa znaczącą rolę, a wartość statystyki poinformuje, w jaki sposób korporacja może dostosować swoje podejście marketingowe w różnych lokalizacjach geograficznych, aby zmaksymalizować przychody.
Podczas analizy danych przydaje się test chi-kwadrat do sprawdzania spójności lub niezależności zmiennych kategorycznych, a także rozważanego modelu dobroci dopasowania.
Podobnie statystyka chi-kwadrat może znaleźć zastosowanie w zawodzie medycznym. Test chi-kwadrat jest odpowiedni do określenia skuteczności leku w porównaniu z grupą kontrolną.
Popularne blogi dotyczące uczenia maszynowego i sztucznej inteligencji
IoT: historia, teraźniejszość i przyszłość | Samouczek uczenia maszynowego: Naucz się ML | Co to jest algorytm? Proste i łatwe |
Wynagrodzenie inżyniera robotyki w Indiach: wszystkie role | Dzień z życia inżyniera uczenia maszynowego: czym się zajmują? | Czym jest IoT (Internet Rzeczy) |
Permutacja a kombinacja: różnica między permutacją a kombinacją | 7 najważniejszych trendów w sztucznej inteligencji i uczeniu maszynowym | Uczenie maszynowe z R: wszystko, co musisz wiedzieć |
Wniosek
W tym artykule poznałeś statystyki Chi-kwadrat i sposób obliczania ich wartości. Ponieważ Chi-kwadrat działa ze zmiennymi kategorialnymi, jest często stosowany przez naukowców badających dane z ankiet. Ta forma studiów jest powszechna w wielu dziedzinach, w tym w socjologii, psychologii, ekonomii, naukach politycznych i marketingu.
Zdobądź tytuł magistra nauki w dziedzinie uczenia maszynowego i sztucznej inteligencji dzięki upGrad
Czy w końcu chcesz zdobyć tytuł magistra? upGrad współpracował z IIIT-B i Liverpool John Moores University, aby zapewnić Ci najbardziej wyselekcjonowany kurs. Dzięki Master of Science in Machine Learning & AI nauczysz się wszystkich potrzebnych umiejętności w dziedzinie ML i AI, takich jak przetwarzanie języka naturalnego, głębokie uczenie, uczenie przez wzmacnianie itp.
Kryteria kwalifikacji:
- Ukończenie studiów licencjackich z 50%
- Ukończenie Executive Post Graduate Programme in Machine Learning & AI przez IIIT-B
- Preferowane jest minimum roczne doświadczenie zawodowe
Co oferuje ten kurs:
- Ponad 750 godzin materiałów szkoleniowych do nauki
- Zaprojektowany dla pracujących profesjonalistów
- Ponad 15 zadań i studiów przypadku
- Ponad 12 projektów, z czego 6 to projekty zwieńczenia
- Zajęcia z kodowania na żywo
- Warsztaty budowania profili
- Obóz kariery
- Wysokowydajny coaching jeden na jednego
- Indywidualne sesje mentoringu zawodowego
- Ekskluzywne oferty pracy
- Spersonalizowane sesje branżowe
Jak ma się wartość p do testu chi-kwadrat?
Wartość p to obszar pod krzywą gęstości chi-kwadrat, który znajduje się na prawo od wartości statystyki testowej. To, czy statystyka testu chi-kwadrat jest wystarczająco duża, aby odrzucić hipotezę zerową, jest ostatnim krokiem w teście istotności chi-kwadrat. W tym celu stosuje się wartość p.
Czy istnieją jakieś ograniczenia lub wady korzystania z testu Chi-kwadrat?
Wszystkie badane osoby muszą być wyjątkowe; w przeciwnym razie wyniki byłyby bez znaczenia. Testu chi-kwadrat nie należy stosować, jeśli danego respondenta można podzielić na dwie odrębne grupy. Jeszcze innym ograniczeniem chi-kwadrat jest to, że można go używać tylko do danych dotyczących częstotliwości. Dodatkowo suma wszystkich przewidywanych osób we wszystkich klasach powinna być większa niż 5.
Jakie są mocne strony testu Chi-kwadrat?
Jedną z jego głównych zalet jest to, że chi-kwadrat można szybko i łatwo obliczyć. Za pomocą tej metody można również wykorzystać dane nominalne. Może być również używany do porównania więcej niż dwóch grup zmiennych kategorycznych pod kątem istotności statystycznej.