Co to są statystyki opisowe? Definicja, typy wyjaśnione

Opublikowany: 2021-08-13

Statystyki opisowe to zorganizowane i podsumowane cechy zestawu danych. Zbiór obserwacji z całej populacji lub próbki jest znany jako zbiór danych. Pierwszym krokiem po zebraniu danych jest opisanie odpowiedzi cech takich jak średnia jednej zmiennej czy relacja między dwiema zmiennymi. Na przykład znalezienie związku między wiekiem a kreatywnością daje nam analizę statystyczną.

Następnym krokiem jest znalezienie statystyk inferencyjnych, które wskazują, czy Twoje dane obalają lub potwierdzają hipotezę. Pomaga nam również zdecydować, czy uogólniona populacja ma na nią wpływ. W dzisiejszych czasach naukowcy przywiązują dużą wagę do nauki o danych i dużych zbiorów danych, dzięki czemu dane te są przetwarzane z najwyższą starannością. Tutaj wkraczają statystyki opisowe.

Jednym z podstawowych kroków analizy statystyk opisowych jest to, że daje ona opisy, konstruktywnie pokazuje punkty danych i dostarcza wnikliwych informacji o danych. Daje dalsze wnioski dotyczące dystrybucji danych, pomaga wykryć wartości odstające i umożliwia identyfikację podobieństw między zmiennymi.

Spis treści

Rodzaje statystyk opisowych

  • Dystrybucja częstotliwości

Rozkład częstotliwości pokazuje liczbę lub częstotliwość różnych wyników w próbce lub zestawie danych. Jest używany zarówno do danych jakościowych, jak i ilościowych i jest zwykle przedstawiany w formie wykresu lub tabeli. Każdemu wpisowi na wykresie lub w tabeli towarzyszy częstotliwość lub liczba wystąpień wartości w zakresie, przedziale lub określonej grupie.

Aby było jasne, jest to podsumowanie lub prezentacja pogrupowanych danych skategoryzowanych na podstawie ekskluzywnych klas. Przedstawia również liczbę wystąpień w każdej odpowiedniej kategorii. Wskazuje zatem na bardziej zorganizowany i ustrukturyzowany sposób prezentacji surowych danych.

Niektóre przykłady danych o rozkładzie częstotliwości to wykresy lub wykresy używane w prezentacji częstotliwości. Ponadto wykresy kołowe, wykresy słupkowe, wykresy liniowe i histogramy są również wskaźnikiem rozkładu częstotliwości.

  • Tendencji centralnej

Tendencja centralna ogólnie odnosi się do opisowego podsumowania zbioru danych, przy użyciu pojedynczej wartości, która odzwierciedla środek dystrybucji danych. Tak więc miary tendencji centralnej są popularnie nazywane miarami centralnej lokalizacji. Trzy główne aspekty tendencji centralnej to:

    • Mieć na myśli

Za najpopularniejszą tendencję centralną uważa się średnią. Jest to średnia lub najczęstsza wartość zbioru danych. Aby zdefiniować średnią, jest to najprostsza matematyczna średnia dwóch lub więcej liczb. Średnia jest określona przez zbiór liczb w danych, które można obliczyć na więcej niż jeden sposób. Istnieją dwa rodzaje średniej – średnia arytmetyczna i średnia geometryczna.

Na przykład, aby znaleźć średnią następującego zestawu danych; 2,3,4,5,6. Następnie średnia tych danych wynosi cztery, po prostu dodając zestaw danych i dzieląc go przez liczbę wartości w zestawie danych.

    • Mediana

Mediana to średni wynik dowolnego zestawu danych w porządku rosnącym lub malejącym. W związku z tym lista liczb w zbiorze danych jest bardziej opisowa niż średnia.

Na przykład w przypadku nieparzystego zbioru danych {3, 13, 2, 34, 11, 26,47} należy najpierw uporządkować dane {2,3,11,13,26,34,47 }, tutaj Mediana wynosi 13, ponieważ po obu stronach szeregu są równe liczby. Natomiast w przypadku parzystego zbioru danych {3, 13, 2, 34, 11, 17, 27, 47} należy najpierw uporządkować dane w kolejności {2,3,11,13, 17,26,34,47}, tutaj Mediana byłaby sumą dwóch cyfr znajdujących się w środku szeregu podzieloną przez 2. Dlatego Mediana byłaby 13+17/2, co jest równe 15.

    • Tryb

Tryb odnosi się do wartości punktacji, która występuje najczęściej w danych. Zestaw danych może mieć jeden tryb, więcej niż jeden tryb i w ogóle nie mieć trybu.

Na przykład zestaw danych o numerach {3,5,6,6,6,8,9} będzie miał tryb 6, a w przypadku, gdy zestaw danych nie ma takich samych liczb, to dane uważa się za nie posiadające trybu .

  • Zmienność

Zmienność to miara statystyk podsumowujących, która odzwierciedla stopień rozproszenia w próbce. Mierzy również zmienność, która określa, jak daleko od środka pojawiają się punkty danych.

Rozrzut, dyspersja i zmienność odnoszą się do szerokości i zakresu wartości rozkładu w danych. Odchylenie standardowe, wariancja i zakres służą do zobrazowania różnych aspektów i składników spreadu.

Zakres w zbiorze wartości przedstawia stopień rozproszenia lub idealną odległość między najniższymi i najwyższymi wartościami w danych. Odchylenie standardowe służy do ustalenia średniej wariancji w zestawie danych. Zapewnia również wgląd w różnicę lub odległość między wartościami w zestawie danych. Przedstawia również średnią wartość danych. Wreszcie odzwierciedla stopień rozprzestrzeniania się.

Znaczenie statystyk opisowych

  • Dane czujności

Dane gromadzone na potrzeby statystyki opisowej muszą charakteryzować się wysokim stopniem obiektywizmu. Dlatego należy zachować szczególną czujność, ponieważ jeśli statystyki wykazują różne cechy wyodrębnionych danych i nie pasują do trendów, nie będą one przydatne.

  • Szersze podejście

Statystyka opisowa jest mierzona jako szersza niż metoda ilościowa. Ma na celu przedstawienie szerszego obrazu zjawiska lub wydarzenia. Do przeprowadzenia badań można użyć pojedynczej liczby zmiennych lub dowolnej liczby zmiennych.

  • Naturalna relacja

Te dane statystyczne są uważane za lepszą metodę zbierania informacji, ponieważ są naturalne i przedstawiają świat takim, jaki istnieje. Bada rzeczywiste zachowanie danych, aby zapewnić dokładność wyodrębnionych trendów.

  • Elastyczne

Statystyka opisowa daje badaniu nowy sposób uczenia się rzeczy. Na przykład badacze mogą wykorzystać studium przypadku, które jest zarówno korelacyjne, jak i jakościowe, aby opisać zjawiska statystyki opisowej. Studia przypadków można wykorzystać do opisania wydarzeń, osób i instytucji. Umożliwi to naukowcom zrozumienie wzorców danych i zachowań.

Uzyskaj certyfikat naukowy online z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

  • Zidentyfikuj zmienne i hipotezy

Statystyki opisowe przydają się przy identyfikowaniu nowych hipotez i zmiennych, które można dalej analizować za pomocą badań eksperymentalnych i inferencyjnych. Co więcej, jest to bardzo przydatne, ponieważ margines błędu jest stosunkowo niewielki, a trendy pochodzą bezpośrednio z właściwości danych.

Podsumowując

Statystyka opisowa ma kluczowe znaczenie dla wizualizacji danych, ponieważ umożliwia ekspertom od danych przedstawienie ich wyników w sposób konstruktywny, tak aby mogli je zrozumieć zarówno techniczne, jak i nietechniczne interesariusze. Podsumowując złożone dane ilościowe za pomocą trafnych reprezentacji graficznych, statystyki opisowe upraszczają proces interpretacji danych, ułatwiając firmom podejmowanie decyzji opartych na danych.

Jeśli chcesz dowiedzieć się więcej o różnych koncepcjach statystycznych i metodach stosowanych w nauce o danych, zapoznaj się z kursami Executive PG Program w zakresie Data Science . Kursy te, prowadzone przez wykładowców z najlepszych krajowych i zagranicznych uniwersytetów, wyposażą Cię w umiejętności i wiedzę związaną z branżą.

Przygotuj się na karierę przyszłości

Rozpocznij karierę w Data Science z IIIT — Bangalore
Złóż wniosek o Advanced Certificate Program in Data Science