Was ist deskriptive Statistik? Definition, Typen erklärt

Veröffentlicht: 2021-08-13

Deskriptive Statistiken sind organisierte und zusammengefasste Merkmale des Datensatzes. Die Sammlung von Beobachtungen aus der gesamten Grundgesamtheit oder Stichprobe wird als Datensatz bezeichnet. Der erste Schritt nach dem Sammeln von Daten besteht darin, die Reaktionen der Merkmale zu beschreiben, wie z. B. den Durchschnitt einer Variablen oder die Beziehung zwischen zwei Variablen. Wenn wir beispielsweise einen Zusammenhang zwischen Alter und Kreativität finden, erhalten wir eine statistische Analyse.

Der nächste Schritt besteht darin, Inferenzstatistiken zu finden, die angeben, ob Ihre Daten die Hypothese widerlegen oder bestätigen. Es hilft uns auch zu entscheiden, ob eine generalisierte Population sie beeinflusst. Heutzutage messen Forscher Data Science und Big Data große Bedeutung bei und verarbeiten diese Daten mit größter Sorgfalt. Hier setzt die deskriptive Statistik an.

Einer der wesentlichen Schritte für die Analyse deskriptiver Statistiken besteht darin, dass Beschreibungen gegeben, Datenpunkte konstruktiv dargestellt und aufschlussreiche Dateninformationen bereitgestellt werden. Es gibt Ihnen außerdem einen Rückschluss auf die Datenverteilung, hilft Ihnen, Ausreißer zu erkennen, und ermöglicht es Ihnen, Ähnlichkeiten zwischen Variablen zu identifizieren.

Inhaltsverzeichnis

Arten der deskriptiven Statistik

  • Häufigkeitsverteilung

Eine Häufigkeitsverteilung zeigt die Anzahl oder Häufigkeit der verschiedenen Ergebnisse in einer Stichprobe oder einem Datensatz. Es wird sowohl für qualitative als auch für quantitative Daten verwendet und wird normalerweise in einem Diagramm- oder Tabellenformat dargestellt. Jeder Eintrag im Diagramm oder in der Tabelle wird von der Häufigkeit oder Anzahl der Vorkommen der Werte in einem Bereich, Intervall oder einer bestimmten Gruppe begleitet.

Zur Verdeutlichung handelt es sich um eine Zusammenfassung oder Präsentation gruppierter Daten, die nach exklusiven Klassen kategorisiert sind. Es zeigt auch die Anzahl der Vorkommen in jeder jeweiligen Kategorie. Somit zeigt es eine organisiertere und strukturiertere Art und Weise auf, Rohdaten zu präsentieren.

Einige der Beispiele für Häufigkeitsverteilungsdaten sind Grafiken oder Diagramme, die bei der Häufigkeitsdarstellung verwendet werden. Darüber hinaus sind Kreisdiagramme, Balkendiagramme, Liniendiagramme und Histogramme auch ein Indikator für die Häufigkeitsverteilung.

  • Zentrale Tendenz

Die zentrale Tendenz bezieht sich im Allgemeinen auf eine beschreibende Datensatzzusammenfassung unter Verwendung eines einzelnen Werts, der das Zentrum der Datenverteilung widerspiegelt. Daher sind Maße der zentralen Tendenz im Volksmund als Maße der zentralen Lage bekannt. Die drei Kernaspekte der zentralen Tendenz sind:

    • Bedeuten

Der Mittelwert gilt als die beliebteste zentrale Tendenz. Es ist ein durchschnittlicher oder am häufigsten vorkommender Wert des Datensatzes. Um den Mittelwert zu definieren, ist es der einfachste mathematische Durchschnitt von zwei oder mehr Zahlen. Der Mittelwert wird durch den Satz von Zahlen in Daten angegeben, die auf mehr als eine Weise berechnet werden können. Es gibt zwei Arten von Mittelwerten – das arithmetische Mittel und das geometrische Mittel.

Zum Beispiel, um den Mittelwert des folgenden Datensatzes zu finden; 2,3,4,5,6. Dann ist der Mittelwert dieser Daten vier, indem einfach der Datensatz addiert und durch die Anzahl der Werte im Datensatz dividiert wird.

    • Median

Der Median ist der Mittelwert eines beliebigen Datensatzes in aufsteigender oder absteigender Reihenfolge. Damit ist die Zahlenliste im Datensatz aussagekräftiger als der Durchschnitt.

Im Fall eines ungeraden Datensatzes, der {3, 13, 2, 34, 11, 26,47} ist, müssen Sie beispielsweise zuerst die Daten {2,3,11,13,26,34,47 anordnen }, hier ist der Median 13, weil es auf beiden Seiten der Reihe gleiche Zahlen gibt. Andererseits müssen Sie im Falle eines geraden Datensatzes, der {3, 13, 2, 34, 11, 17, 27, 47} ist, zuerst die Daten in einer Reihenfolge anordnen {2,3,11,13, 17,26,34,47}, hier wäre der Median die Summe von zwei Ziffern, die in der Mitte der Reihe liegen, dividiert durch 2. Daher wäre der Median 13+17/2, was gleich 15 ist.

    • Modus

Modus bezieht sich auf den Score-Wert, der in den Daten am häufigsten vorkommt. Der Datensatz kann einen Modus, mehr als einen Modus und überhaupt keinen Modus haben.

Zum Beispiel wäre der Datensatz mit den Nummern {3,5,6,6,6,8,9} der Modus 6, und falls der Datensatz keine gleichen Nummern hat, dann wird davon ausgegangen, dass diese Daten keinen Modus haben .

  • Variabilität

Variabilität ist ein Maß der zusammenfassenden Statistik, das den Grad der Streuung in einer Stichprobe widerspiegelt. Es misst auch die Variabilität, die bestimmt, wie weit die Datenpunkte von der Mitte entfernt erscheinen.

Streuung, Streuung und Variabilität beziehen sich auf die Breite und den Bereich der Verteilungswerte in Daten. Standardabweichung, Varianz und Bandbreite werden verwendet, um verschiedene Aspekte und Komponenten des Spreads darzustellen.

Der Bereich im Wertesatz zeigt den Grad der Streuung oder einen idealen Abstand zwischen den niedrigsten und höchsten Werten innerhalb einer Datenmenge. Die Standardabweichung wird verwendet, um die durchschnittliche Varianz in einem Datensatz zu ermitteln. Es bietet auch einen Einblick in die Differenz oder den Abstand zwischen Werten im Datensatz. Es zeigt auch den Mittelwert der Daten. Schließlich spiegelt es den Grad der Ausbreitung wider.

Bedeutung der deskriptiven Statistik

  • Wachsame Daten

Die für die deskriptive Statistik erhobenen Daten müssen ein hohes Maß an Objektivität aufweisen. Daher muss man besonders wachsam sein, denn wenn die Statistiken unterschiedliche Merkmale der extrahierten Daten zeigen und sie nicht mit den Trends übereinstimmen, ist dies nutzlos.

  • Breiterer Ansatz

Die deskriptive Statistik ist umfangreicher als die quantitative Methode. Ziel ist es, ein breiteres Bild des Phänomens oder Ereignisses zu vermitteln. Dies kann eine einzelne Anzahl von Variablen oder eine beliebige Anzahl von Variablen für die Recherche verwenden.

  • Natürliche Beziehung

Diese statistischen Daten werden als bessere Methode zum Sammeln von Informationen angesehen, da sie natürlich sind und die Welt so darstellen, wie sie existiert. Es untersucht das reale Verhalten der Daten, um die Genauigkeit der extrahierten Trends sicherzustellen.

  • Flexibel

Die beschreibende Statistik gibt der Studie eine neue Möglichkeit, Dinge zu lernen. Beispielsweise können Forscher eine Fallstudie verwenden, die sowohl korreliert als auch qualitativ ist, um die Phänomene der deskriptiven Statistik zu beschreiben. Man kann Fallstudien verwenden, um Ereignisse, Personen und Institutionen zu beschreiben. Dies wird es den Forschern ermöglichen, Datenmuster und -verhalten zu verstehen.

Holen Sie sich online eine Data-Science-Zertifizierung von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

  • Identifizieren Sie Variablen und Hypothesen

Deskriptive Statistiken sind praktisch, wenn neue Hypothesen und Variablen identifiziert werden, die durch experimentelle und Schlussfolgerungsstudien weiter analysiert werden können. Darüber hinaus ist es sehr nützlich, da die Fehlerspanne relativ gering ist und Trends direkt aus den Dateneigenschaften stammen.

Schlussfolgern

Deskriptive Statistiken sind für die Datenvisualisierung von entscheidender Bedeutung, da sie es Datenexperten ermöglichen, ihre Ergebnisse aussagekräftig zu präsentieren, sodass sowohl technische als auch nicht-technische Beteiligte sie verstehen können. Durch die Zusammenfassung komplexer quantitativer Daten durch geeignete grafische Darstellungen vereinfacht die deskriptive Statistik den Dateninterpretationsprozess und erleichtert es Unternehmen, datenbasierte Entscheidungen zu treffen.

Wenn Sie daran interessiert sind, mehr über die verschiedenen statistischen Konzepte und Methoden in der Datenwissenschaft zu erfahren, sehen Sie sich unbedingt die Kurse des Executive PG Program in Data Science von upGrad an . Diese Kurse werden von Fakultätsmitgliedern erstklassiger nationaler und ausländischer Universitäten unterrichtet und vermitteln Ihnen branchenrelevante Fähigkeiten und Kenntnisse.

Bereiten Sie sich auf eine Karriere der Zukunft vor

Starten Sie Ihre Data Science-Karriere mit IIIT - Bangalore
Bewerben Sie sich für das Advanced Certificate Program in Data Science