Che cos'è la statistica descrittiva? Definizione, tipi spiegati

Pubblicato: 2021-08-13

Le statistiche descrittive sono caratteristiche organizzate e riassunte del set di dati. La raccolta di osservazioni dall'intera popolazione o campione è nota come set di dati. Il primo passo dopo la raccolta dei dati consiste nel descrivere le risposte delle caratteristiche come la media di una variabile o la relazione tra due variabili. Ad esempio, trovare una connessione tra età e creatività ci fornisce un'analisi statistica.

Il passo successivo è trovare le statistiche inferenziali, che indicano se i tuoi dati confutano o confermano l'ipotesi. Ci aiuta anche a decidere se una popolazione generalizzata lo influenza. In questi giorni, i ricercatori danno molta importanza alla scienza dei dati e ai big data, rendendo questi dati elaborati con il massimo controllo. È qui che entrano in gioco le statistiche descrittive.

Uno dei passaggi essenziali per l'analisi delle statistiche descrittive è che fornisce descrizioni, mostra in modo costruttivo i punti dati e fornisce informazioni approfondite sui dati. Fornisce inoltre una conclusione sulla distribuzione dei dati, aiuta a rilevare i valori anomali e consente di identificare le somiglianze tra le variabili.

Sommario

Tipi di statistica descrittiva

  • Distribuzione di frequenza

Una distribuzione di frequenza mostra il conteggio o la frequenza dei diversi risultati in un campione o set di dati. Viene utilizzato sia per dati qualitativi che quantitativi e viene generalmente presentato in formato grafico o tabella. Ciascuna voce nel grafico o nella tabella è accompagnata dalla frequenza o dal conteggio delle occorrenze dei valori in un intervallo, intervallo o gruppo specifico.

Per chiarire, è un riepilogo o una presentazione di dati raggruppati classificati in base a classi esclusive. Presenta anche il numero di occorrenze in ciascuna rispettiva categoria. Pertanto, indica un modo più organizzato e strutturato per presentare i dati grezzi.

Alcuni degli esempi di dati di distribuzione della frequenza sono grafici o grafici utilizzati nella presentazione della frequenza. Inoltre, anche i grafici a torta, i grafici a barre, i grafici a linee e gli istogrammi sono indicatori della distribuzione della frequenza.

  • Tendenza centrale

La tendenza centrale si riferisce generalmente al riepilogo descrittivo del set di dati, utilizzando un unico valore che riflette il centro di distribuzione dei dati. Pertanto, le misure di tendenza centrale sono popolarmente conosciute come misure di posizione centrale. I tre aspetti centrali della tendenza centrale sono:

    • Significare

La media è considerata la tendenza centrale più popolare. È un valore medio o più comune del set di dati. Per definire la media, è la media matematica più semplice di due o più numeri. La media è data dall'insieme dei numeri nei dati, che possono essere calcolati in più di un modo. Esistono due tipi di media: media aritmetica e media geometrica.

Ad esempio, per trovare la media del seguente insieme di dati; 2,3,4,5,6. Quindi, la media di questi dati è quattro semplicemente sommando il set di dati e dividendolo per il numero di valori nel set di dati.

    • Mediano

La mediana è il punteggio medio di qualsiasi set di dati in ordine crescente o decrescente. Pertanto, l'elenco dei numeri è più descrittivo nel set di dati rispetto alla media.

Ad esempio, nel caso di un insieme di dati dispari che è {3, 13, 2, 34, 11, 26,47}, è necessario prima disporre i dati {2,3,11,13,26,34,47 }, qui la mediana è 13 perché ci sono numeri uguali su entrambi i lati della serie. D'altra parte, in caso di set di dati pari che è {3, 13, 2, 34, 11, 17, 27, 47}, è necessario prima disporre i dati in un ordine {2,3,11,13, 17,26,34,47}, qui la Mediana sarebbe la somma di due cifre che si trovano a metà della serie divisa per 2. Pertanto, la Mediana sarebbe 13+17/2, che è pari a 15.

    • Modalità

La modalità si riferisce al valore del punteggio più frequente nei dati. Il set di dati può avere una modalità, più di una modalità e nessuna modalità.

Ad esempio, il set di dati con i numeri {3,5,6,6,6,8,9}, la modalità sarebbe 6 e, nel caso in cui il set di dati non abbia gli stessi numeri, quei dati sono considerati privi di modalità .

  • Variabilità

La variabilità è una misura di statistiche riassuntive che riflette il grado di dispersione in un campione. Misura anche la variabilità che determina la distanza dal centro dei punti dati.

Spread, dispersione e variabilità si riferiscono all'ampiezza e all'intervallo dei valori di distribuzione in un dato. Deviazione standard, varianza e intervallo vengono utilizzati per rappresentare diversi aspetti e componenti dello spread.

L'intervallo nel set di valori rappresenta il grado di dispersione o una distanza ideale tra i valori minimo e massimo all'interno di un dato. La deviazione standard viene utilizzata per stabilire la varianza media in un insieme di dati. Fornisce inoltre un'idea della differenza o distanza tra i valori nel set di dati. Rappresenta anche il valore medio dei dati. Infine, riflette il grado di diffusione.

Importanza della statistica descrittiva

  • Dati vigilanti

I dati raccolti per la statistica descrittiva devono possedere un elevato grado di obiettività. Pertanto, è necessario essere più vigili perché se le statistiche mostrano caratteristiche diverse dei dati estratti e non corrispondono alle tendenze, non sarà di alcuna utilità.

  • Approccio più ampio

La statistica descrittiva è considerata più vasta del metodo quantitativo. Mira a fornire un quadro più ampio del fenomeno o dell'evento. Questo può utilizzare un singolo numero di variabili o qualsiasi numero di variabili per fare ricerche.

  • Relazione naturale

Questi dati statistici sono considerati un metodo migliore per raccogliere informazioni perché sono naturali e mostrano il mondo così com'è. Ricerca il comportamento reale dei dati per garantire l'accuratezza delle tendenze estratte.

  • Flessibile

La statistica descrittiva offre allo studio un nuovo modo di apprendere le cose. Ad esempio, i ricercatori possono utilizzare un caso di studio che sia sia correlato che qualitativo per descrivere i fenomeni della statistica descrittiva. Si possono usare casi di studio per descrivere eventi, persone e istituzioni. Ciò consentirà ai ricercatori di comprendere i modelli di dati e il comportamento.

Ottieni la certificazione di data science online dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.

  • Identificare variabili e ipotesi

Le statistiche descrittive sono utili per identificare nuove ipotesi e variabili che possono essere ulteriormente analizzate attraverso studi sperimentali e inferenziali. Inoltre, è molto utile in quanto il margine dell'errore è relativamente minore e le tendenze derivano direttamente dalle proprietà dei dati.

Concludere

Le statistiche descrittive sono fondamentali per la visualizzazione dei dati in quanto consentono agli esperti di dati di presentare i loro risultati in modo significativo in modo che le parti interessate sia tecniche che non tecniche possano capirle. Riassumendo dati quantitativi complessi attraverso rappresentazioni grafiche adeguate, le statistiche descrittive semplificano il processo di interpretazione dei dati, rendendo più facile per le aziende prendere decisioni basate sui dati.

Se sei interessato a saperne di più sui diversi concetti e metodi statistici utilizzati nella scienza dei dati, assicurati di dare un'occhiata all'Executive PG Program di upGrad nei corsi di Data Science . Insegnati da docenti delle migliori università nazionali ed estere, questi corsi ti forniranno competenze e conoscenze rilevanti per il settore.

Prepararsi per una carriera del futuro

Inizia la tua carriera nella scienza dei dati con IIIT - Bangalore
Richiedi il programma di certificazione avanzato in Data Science