Qu'est-ce que la statistique descriptive ? Définition, types expliqués
Publié: 2021-08-13Les statistiques descriptives sont organisées et résument les caractéristiques de l'ensemble de données. La collecte d'observations de l'ensemble de la population ou de l'échantillon est connue sous le nom d'ensemble de données. La première étape après la collecte des données consiste à décrire les réponses des caractéristiques telles que la moyenne d'une variable ou la relation entre deux variables. Par exemple, trouver un lien entre l'âge et la créativité nous donne une analyse statistique.
L'étape suivante consiste à trouver des statistiques inférentielles, qui indiquent si vos données réfutent ou confirment l'hypothèse. Cela nous aide également à décider si une population généralisée l'influence. De nos jours, les chercheurs accordent beaucoup d'importance à la science des données et au big data, ce qui rend ces données traitées avec le plus grand soin. C'est là que les statistiques descriptives entrent en jeu.
L'une des étapes essentielles de l'analyse des statistiques descriptives consiste à donner des descriptions, à montrer de manière constructive des points de données et à fournir des informations pertinentes sur les données. Il vous donne en outre une conclusion sur la distribution des données, vous aide à détecter les valeurs aberrantes et vous permet d'identifier les similitudes entre les variables.
Table des matières
Types de statistiques descriptives
Répartition des fréquences
Une distribution de fréquence montre le nombre ou la fréquence des différents résultats dans un échantillon ou un ensemble de données. Il est utilisé pour les données qualitatives et quantitatives et est généralement présenté sous forme de graphique ou de tableau. Chaque entrée du graphique ou du tableau est accompagnée de la fréquence ou du nombre d'occurrences des valeurs dans une plage, un intervalle ou un groupe spécifique.
Pour être clair, il s'agit d'un résumé ou d'une présentation de données groupées catégorisées en fonction de classes exclusives. Il présente également le nombre d'occurrences dans chaque catégorie respective. Ainsi, cela indique une manière plus organisée et structurée de présenter les données brutes.
Certains des exemples de données de distribution de fréquences sont des graphiques ou des diagrammes utilisés dans la présentation des fréquences. De plus, les graphiques circulaires, les graphiques à barres, les graphiques linéaires et les histogrammes sont également un indicateur de la distribution des fréquences.
Tendance centrale
La tendance centrale fait généralement référence au résumé de l'ensemble de données descriptif, en utilisant une valeur unique qui reflète le centre de distribution des données. Ainsi, les mesures de tendance centrale sont communément appelées mesures de localisation centrale. Les trois aspects fondamentaux de la tendance centrale sont :
Signifier
La moyenne est considérée comme la tendance centrale la plus populaire. Il s'agit d'une valeur moyenne ou la plus courante de l'ensemble de données. Pour définir la moyenne, c'est la moyenne mathématique la plus simple de deux nombres ou plus. La moyenne est donnée par l'ensemble des nombres dans les données, qui peuvent être calculés de plusieurs façons. Il existe deux types de moyennes : la moyenne arithmétique et la moyenne géométrique.
Par exemple, pour trouver la moyenne de l'ensemble de données suivant ; 2,3,4,5,6. Ensuite, la moyenne de ces données est de quatre en ajoutant simplement l'ensemble de données et en le divisant par le nombre de valeurs dans l'ensemble de données.
Médian
La médiane est le score moyen de tout ensemble de données par ordre croissant ou décroissant. Ainsi, la liste des nombres est plus descriptive dans l'ensemble de données que la moyenne.
Par exemple, dans le cas d'un ensemble de données impair qui est {3, 13, 2, 34, 11, 26,47}, vous devez d'abord organiser les données {2,3,11,13,26,34,47 }, ici la médiane est 13 car il y a des nombres égaux de chaque côté de la série. D'autre part, en cas d'ensemble de données pair {3, 13, 2, 34, 11, 17, 27, 47}, vous devez d'abord organiser les données dans un ordre {2,3,11,13, 17,26,34,47}, ici la médiane serait la somme de deux chiffres qui sont au milieu de la série divisée par 2. Par conséquent, la médiane serait 13+17/2, ce qui est égal à 15.
Mode
Le mode fait référence à la valeur de score la plus fréquente dans les données. L'ensemble de données peut avoir un mode, plusieurs modes et aucun mode du tout.
Par exemple, l'ensemble de données ayant des numéros {3,5,6,6,6,8,9}, le mode serait 6, et dans le cas où l'ensemble de données n'a pas les mêmes numéros, alors ces données sont considérées comme n'ayant pas de mode .
Variabilité
La variabilité est une mesure de statistiques sommaires qui reflète le degré de dispersion dans un échantillon. Il mesure également la variabilité qui détermine à quelle distance les points de données apparaissent par rapport au centre.
L'étalement, la dispersion et la variabilité font référence à la largeur et à la plage des valeurs de distribution dans une donnée. L'écart type, la variance et la plage sont utilisés pour décrire différents aspects et composants de la propagation.
La plage dans l'ensemble de valeurs représente le degré de dispersion ou une distance idéale entre les valeurs les plus basses et les plus élevées au sein d'une donnée. L'écart type est utilisé pour établir la variance moyenne dans un ensemble de données. Il fournit également un aperçu de la différence ou de la distance entre les valeurs dans l'ensemble de données. Il représente également la valeur moyenne des données. Enfin, il reflète le degré de propagation.
Importance des statistiques descriptives
Données vigilantes
Les données recueillies pour les statistiques descriptives doivent posséder un haut degré d'objectivité. Par conséquent, il faut redoubler de vigilance car si les statistiques montrent des caractéristiques différentes des données extraites et qu'elles ne correspondent pas aux tendances, cela ne servira à rien.
Approche plus large
Les statistiques descriptives sont jugées plus vastes que la méthode quantitative. Il vise à fournir une image plus large du phénomène ou de l'événement. Cela peut utiliser un seul nombre de variables ou n'importe quel nombre de variables pour effectuer des recherches.
Relation naturelle
Ces données statistiques sont considérées comme une meilleure méthode de collecte d'informations car elles sont naturelles et montrent le monde tel qu'il existe. Il étudie le comportement réel des données pour garantir l'exactitude des tendances extraites.
Souple
Les statistiques descriptives donnent à l'étude une nouvelle façon d'apprendre les choses. Par exemple, les chercheurs peuvent utiliser une étude de cas à la fois corrélationnelle et qualitative pour décrire les phénomènes des statistiques descriptives. On peut utiliser des études de cas pour décrire des événements, des personnes et des institutions. Cela permettra aux chercheurs de comprendre les modèles de données et le comportement.
Obtenez une certification en science des données en ligne auprès des meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.
Identifier les variables et les hypothèses
Les statistiques descriptives sont utiles pour identifier de nouvelles hypothèses et variables qui peuvent être analysées plus en détail par des études expérimentales et inférentielles. De plus, il est très utile car la marge d'erreur est relativement faible et les tendances proviennent directement des propriétés des données.
De conclure
Les statistiques descriptives sont cruciales pour la visualisation des données car elles permettent aux experts en données de présenter leurs résultats de manière significative afin que les parties prenantes techniques et non techniques puissent les comprendre. En résumant des données quantitatives complexes à l'aide de représentations graphiques appropriées, les statistiques descriptives simplifient le processus d'interprétation des données, ce qui permet aux entreprises de prendre plus facilement des décisions basées sur les données.
Si vous souhaitez en savoir plus sur les différents concepts et méthodes statistiques utilisés en science des données, assurez-vous de consulter les cours Executive PG Program in Data Science d'upGrad . Enseignés par des professeurs des meilleures universités nationales et étrangères, ces cours vous permettront d'acquérir des compétences et des connaissances pertinentes pour l'industrie.