Analiza mocy w statystyce: co to jest i jak przeprowadzić?

Opublikowany: 2021-01-08

Testowanie hipotez jest kluczowym aspektem każdej analizy statystycznej. Jest jednak wiele rzeczy, które należy wstępnie zdefiniować, aby test, który przeprowadzamy, był jak najbardziej poprawny. W tym miejscu w grę wchodzi pojęcie władzy i definiuje heurystykę testu statystycznego.

Pod koniec tego samouczka dowiesz się:

Heurystyki testów statystycznych
Jaka jest moc testu?
Jaka jest potrzeba analizy mocy?
Jak przeprowadzić analizę mocy

Spis treści

Heurystyki testów statystycznych

Przeprowadzenie prawidłowych testów statystycznych na kilku heurystykach, które należy wstępnie ustawić przed przeprowadzeniem testu. Bardzo ważne jest ustawienie właściwych heurystyk, ponieważ nie można ich zmienić po rozpoczęciu testu. Przyjrzyjmy się kilku z nich.

1. Poziom istotności i przedział ufności

Przed rozpoczęciem jakiegokolwiek testu statystycznego należy ustalić próg prawdopodobieństwa. Ten próg lub poziom istotności nazywany jest wartością krytyczną (alfa). Cały obszar pod krzywą prawdopodobieństwa poza wartością alfa nazywa się regionem krytycznym.

Wartość alfa mówi nam, jak dalej musi być punkt danych próbki (lub punkt eksperymentalny) od hipotezy zerowej (pierwotny punkt średni), zanim dojdziemy do wniosku, że odrzucenie hipotezy zerowej jest wystarczająco niezwykłe. Powszechnie używana wartość alfa to 0,05 lub 95% przedział ufności.

2. Wartość P

Aby ocenić, czy otrzymane wyniki testu są statystycznie istotne, czy nie, porównujemy wartość krytyczną (alfa), którą ustaliliśmy przed testem, z wartością P testu. Wartość p to prawdopodobieństwo uzyskania wartości tak ekstremalnych lub nawet bardziej ekstremalnych niż wartość, dla której testujemy.

3. Błędy typu 1 i typu 2

Testy statystyczne nigdy nie mogą być w 100% pewne. Zawsze jest miejsce na błędy i zmylenie wyników. Jak omówiono powyżej, jeśli ustawimy wartość alfa 0,05, to przedział ufności wynosi 95%. Dlatego istnieje 5% szans, że uzyskany wynik jest nieprawidłowy i mylący. Te nieprawidłowe wyniki nazywamy błędami. Istnieją 2 rodzaje błędów – typ 1 i typ 2.

Wartość poziomu istotności 0,05 oznacza, że twój test statystyczny będzie 95% razy poprawny. Co oznacza również, że istnieje 5% szansy na to, że jest niepoprawny! Będzie to przypadek, w którym odrzucisz hipotezę zerową, gdy była poprawna. To jest przykład błędu typu 1. Możemy również powiedzieć, że alfa( α ) jest prawdopodobieństwem popełnienia błędu Typu 1.

Może to być również przypadek, gdy dojdziesz do wniosku, że hipoteza zerowa jest prawdziwa lub zaakceptujesz ją, gdy jest fałszywa. Technicznie rzecz biorąc, nigdy nie możemy zaakceptować hipotezy zerowej. Możemy tylko nie odrzucić tego. To właśnie nazywamy błędem typu 2. Podobnie prawdopodobieństwo popełnienia błędu Typu 2 jest określone przez Beta — β .

Przeczytaj: Analitycy danych: najlepsze umiejętności i narzędzia do opanowania

Jaka jest moc testu statystycznego?

Moc testu to prawdopodobieństwo prawidłowego odrzucenia Hipotezy Zerowej, gdy jest ona fałszywa. Innymi słowy, potęga jest odwrotnie proporcjonalna do prawdopodobieństwa popełnienia błędu typu 2. Dlatego moc = 1 -β. Na przykład, jeśli ustawimy moc na 80%, oznacza to, że 80% naszych testów statystycznych jest poprawnych, a nie fałszywych. Dlatego im wyższa wartość mocy, tym mniejsze prawdopodobieństwo popełnienia błędu typu 2.

Ale dlaczego wyniki mogą być fałszywe? Dzieje się tak dlatego, że mamy tutaj do czynienia z przypadkowymi próbkami. A czasami pobrana próbka jest zbyt daleka od średniej z rozkładu i stąd daje nierealistyczne wyniki, zmuszając nas do podejmowania błędnych decyzji. Całym celem Power Analysis jest zapobieganie podejmowaniu tych błędnych decyzji.

Czy jesteśmy P-hackingiem?

Weźmy przykład, w którym zrobiliśmy szczepionkę na COVID-19 i jesteśmy bardzo pewni, że szczepionka przyniesie znaczące rezultaty. Przechodzimy do przeprowadzenia testu statystycznego, aby sprawdzić, czy nasze przekonanie jest prawdziwe również statystycznie. Ustaw więc alfa 0,05 i wykonaj test na 100 próbkach.

Po teście otrzymujemy wartość P jako 0,06. Widzimy, że jest tak blisko naszej alfy, ale nie mniej, abyśmy mogli bezpiecznie odrzucić hipotezę zerową. Kuszące jest, aby zobaczyć, co się stanie, jeśli zwiększymy próbki i ponownie wykonamy test.

Dodajemy więc jeszcze 50 próbek i widzimy, że wartość P wynosi teraz 0,045. Czy właśnie udowodniliśmy, że nasza szczepionka jest statystycznie istotna? NIE! Po prostu zhakowaliśmy, ponieważ zwiększyliśmy liczbę próbek po otrzymaniu pierwszego wyniku. Dowiedz się więcej o tym, co to jest P-hacking i jak go unikać?

Co to jest analiza mocy?

Jak widzieliśmy w powyższym przykładzie, stwierdziliśmy, że wielkość próbki była mała i później ją zwiększyliśmy. To jest złe i nigdy nie powinno się tego robić. Wartość wielkości próbki należy ustawić przed rozpoczęciem samego testu. Ale jaka wartość wielkości próbki jest dla nas odpowiednia?

Rozważmy przykład, w którym przeprowadzamy wiele testów, używając wielkości próby jako zaledwie 1. Dlatego, gdy losowo pobieramy 1 punkt danych z populacji, może to być albo około średniej, która poprawnie reprezentuje nasze dane, albo może to być również dużo daleko od średniej i nie przedstawia dobrze danych.

Problem pojawia się, gdy przeprowadzamy testy statystyczne z wykorzystaniem tych odległych punktów danych. Otrzymana przez nas wartość P będzie nieprawidłowa. Przeprowadzamy teraz kolejną serię testów, przyjmując 2 jako wielkość próby. Teraz, nawet jeśli jedna wartość jest daleka od średniej danych, druga wartość, która znajduje się po drugiej stronie rozkładu, przyciągnie ich średnią do środka, zmniejszając w ten sposób efekt tej odległej wartości. Dlatego przy próbie o wielkości 2 nasze wyniki będą bardziej prawdziwe przy prawidłowych wartościach P.

Analiza mocy to technika wykorzystywana do określenia odpowiedniej wielkości próbki, która jest potrzebna do jak najlepszego przeprowadzenia testów. Wyższa moc, której potrzebujemy więcej, to wielkość próbki, która będzie wymagana. Możesz więc pomyśleć, że dlaczego nie wziąć dużego rozmiaru próbki, ponieważ duży rozmiar próbki oznacza lepsze i bardziej wiarygodne wyniki. To nie jest właściwe, ponieważ zbieranie danych jest kosztowne, a znajomość wymaganej wielkości próby jest niezbędna.

Jak przeprowadzić analizę mocy?

Moc testu zależy od kilku czynników. Pierwszym krokiem do przeprowadzenia analizy mocy jest ustawienie wartości mocy. Weź pod uwagę, że ustawiłeś wspólną potęgę 0,8, co oznacza, że chcesz mieć co najmniej 80% szans na poprawne odrzucenie hipotezy zerowej. Jeśli weryfikujemy wpływ szczepionki COVID-19 na grupę osób, chcemy udowodnić, że rozkład punktów danych osób zaszczepionych różni się od rozkładu osób, którym podano placebo.

1. Ilość nakładania się

Musimy wziąć pod uwagę stopień nakładania się dwóch porównywanych rozkładów. Im większe nakładanie się, tym trudniej będzie nam bezpiecznie odrzucić wartość null i dlatego będziemy potrzebować większego rozmiaru próbki. Jeśli jednak nakładanie się jest bardzo mniejsze, możemy dość łatwo odrzucić wartość null. I wymagalibyśmy znacznie mniejszej wielkości próbki. Nakładanie się zależy od odległości między średnimi dwóch rozkładów i ich odchyleniami standardowymi.

2. Rozmiar efektu

Wielkość efektu to sposób na połączenie efektów różnicy między średnimi a odchyleniami standardowymi populacji. Wielkość efektu (d) oblicza się jako Oszacowaną różnicę między średnimi podzieloną przez Oszacowane odchylenia standardowe zsumowane. Jednym z najprostszych sposobów obliczania szacunkowych łącznych odchyleń standardowych jest pierwiastek kwadratowy z kwadratu sumy odchyleń standardowych podzielonych przez 2.

Tak więc, gdy mamy wartość mocy, wartość alfa i rozmiar efektu, możemy podłączyć te wartości do kalkulatora mocy statystycznej i uzyskać wartość rozmiaru próbki. Taki kalkulator mocy statystyk jest łatwo dostępny w Internecie.

Uzyskaj certyfikat data science od najlepszych światowych uniwersytetów. Naucz się programów Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Zanim pójdziesz

Obliczyliśmy wielkość próbki, przeprowadzając analizę mocy przy użyciu mocy, alfa i wielkości efektu. Jeśli więc otrzymamy wartość wielkości próbki 7, będzie to oznaczać, że potrzebujemy próbki o wielkości 7, aby mieć 80% szans na prawidłowe odrzucenie Hipotezy Zerowej. Posiadanie odpowiedniej wiedzy specjalistycznej w danej dziedzinie ma również kluczowe znaczenie dla oszacowania średnich populacji i ich nakładania się oraz wymaganej mocy.

Jeśli jesteś zainteresowany nauką o danych, sprawdź IIIT-B i upGrad's PG Diploma in Data Science, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami z branży, 1- on-1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Co to jest analiza mocy?

Moc testu lub analizy mocy to prawdopodobieństwo prawidłowego odrzucenia hipotezy zerowej, gdy jest ona fałszywa. Innymi słowy, potęga jest odwrotnie proporcjonalna do prawdopodobieństwa popełnienia błędu typu 2. Dlatego moc = 1-β. Na przykład, jeśli ustawimy moc na 80%, oznacza to, że 80% naszych testów statystycznych jest poprawnych, a nie fałszywych. Dlatego im wyższa wartość mocy, tym mniejsze prawdopodobieństwo popełnienia błędu typu 2. Analiza mocy polega na zapobieganiu błędnym decyzjom, ponieważ mamy do czynienia z różnymi losowymi próbkami i istnieje duże prawdopodobieństwo, że ich średnia dałaby nierealistyczną średnią i doprowadziłaby nas do podjęcia błędnych decyzji.

Jakie czynniki są brane pod uwagę podczas przeprowadzania naszej analizy mocy?

Istnieją pewne czynniki, które wpływają na test analizy mocy. Pierwszym krokiem jest ustawienie wartości mocy. Załóżmy, że mamy wartość potęgi 0,7, co oznacza, że masz 70% szans na odrzucenie hipotezy zerowej. Poniżej znajdują się czynniki wpływające na analizę mocy. Wielkość nakładania się to nakładanie się dwóch porównywanych rozkładów. Nakładanie się powinno być jak najmniejsze, ponieważ wielkość nakładania się jest wprost proporcjonalna do trudności w obliczeniu wartości null. Wielkość efektu to metoda klubowania różnicy między średnią a odchyleniem standardowym populacji. Jest on oznaczony przez „d” i obliczany jako szacunkowa różnica między średnimi podzielona przez szacowane odchylenia standardowe zsumowane. Ponieważ mamy teraz wartość mocy, wartość alfa (ilość nakładania się) i wielkość efektu, możemy łatwo przeprowadzić analizę mocy.

Co to jest hakowanie P?

P-Hacking lub pogłębianie danych to metoda niewłaściwego wykorzystania technik analizy danych w celu znalezienia wzorców w danych, które wydają się znaczące, ale nie są. Ta metoda ma negatywny wpływ na badanie, ponieważ daje fałszywe obietnice dostarczenia istotnych wzorców danych, co z kolei może prowadzić do drastycznego wzrostu liczby fałszywych trafień. P-hackingowi nie da się całkowicie zapobiec, ale istnieją pewne metody, które z pewnością mogą je zredukować i pomóc uniknąć pułapki.